作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊
目录
前言:
场景六:文本检测Text Detection(OCR)
前言:
目标检测,如YOLO算,有哪些实际应用呢? 在回答这个问题之前,我们首先看一下目标检测的基本任务:
- 图片中目标的检测(置信度)
- 图片中目标的定位(位置)
- 图片中目标的分类(分类)
基于上述三大基本任务,衍生出各种场景的应用。
场景一:统计目标的个数
1.1 电子元器件数统计
背景:电子厂的电子元器件生产流水线,特别是插件散装的器件,可以用电子称称量计算出个数,但误差还是不能接受,尝试图像识别方案,目测能解决这个问题!
1.2 电子显微镜下不同细胞数量的统计
显微镜下细胞的统计是一个很繁琐的事,通常采用局部采用,然后进行全局推广的方式统计细胞的总数,如果采用高分辨率图片 + 小目标检测,可以精确判断各种细胞的数量。
1.3 人群中人数的统计
主要用于判断交通信号,对行人的反应,夜间交通,检测开会人数等应用。
场景二:阿里云视觉智能开放平台上线的目标检测能力
阿里云视觉智能开放平台上线的目标检测能力,通过这些能力,可以看到目标检测的一些常用应用。
类别 | 能力 | 说明 |
通用检测 | 主体检测 | 检测图像中的内容主体,返回该主体的区域位置/坐标信息。 |
白底图检测 | 检测图片背景是否为白底。 | |
透明图检测 | 检测图片背景是否透明。 | |
物体检测 | 检测输入图像中的物体。 | |
可以检测到输入图像中的目标物体,例如人、车辆、宠物等。 | ||
可以检测到输入视频中的目标物体,例如人、车辆、宠物等。 | ||
车辆检测 | 车辆损伤识别 | 针对常见小汽车车型,识别车辆外观受损部件及损伤类型,可识别数十种车辆部件,五大类外观损伤(刮擦、凹陷、开裂、褶皱、穿洞)。 |
车辆部件识别 | 检测图片中车辆部件的位置以及名称。 | |
识别车辆仪表盘上故障灯等信息。 | ||
机动车检测 | 检测图像中的机动车主体,返回该机动车主体的区域位置/坐标信息。 | |
车险图片分类 | 对输入的车险图片进行分类。 | |
车辆拥堵检测 | 根据图片中的车辆,判断是否发生拥堵。 | |
车辆违停检测 | 可通过检测图片中目标区域内是否有车辆停放。 | |
车辆维修 | 识别车辆受损照片,并根据受损情况生成车辆维修方案。 | |
根据生成的维修方案,查询车辆具体的维修方案及维修费用。 |
场景三:智慧交通
智慧交通是目标检测的一个重要应用领域,主要包括如下场景。
(1)交通流量监控与红绿灯配时控制:通过视觉算法,对道路卡口相机和电警相机中采集的视频图像进行分析,根据相应路段的车流量,调整红绿灯配时策略,提升交通通行能力。
(2)异常事件检测:通过视觉算法,检测各种交通异常事件,包括非机动车驶入机动车道、车辆占用应急车道以及监控危险品运输车辆驾驶员的驾驶行为、交通事故实时报警等,第一时间将异常事件上报给交管部门。
(3)交通违法事件检测和追踪:通过视觉算法,发现套牌车辆、收费站逃费现象,跟踪肇事车辆,对可疑车辆/行人进行全程轨迹追踪,通过视觉技术手段,极大地提升公安/交管部门的监管能力。
(4)自动驾驶:自动驾驶是当今热门的研究领域,是一个多种前沿技术高度交叉的研究方向,其中视觉相关算法主要包含对道路、车辆以及行人的检测,对交通标志物以及路旁物体的检测识别等。主流的人工智能公司都投入了大量的资源进行自动驾驶方面的研发,目前已经初步实现了受限路况条件下的自动驾驶,但距离实现不受路况、天气等因素影响的自动驾驶(L4级别),尚有相当大的一段距离。
(5)行人检测:作为一种重要的目标检测应用,在自动驾驶、视频监控、刑事侦查等领域得到了广泛的关注。早期的行人检测方法,如HOG检测器,ICF检测器,在特征表示,分类器的设计,检测加速度方面,为一般的目标检测奠定了坚实的基础。近年来,一些通用的目标检测算法,如Faster RCNN,已经被引用到行人检测中,极大地推动了该领域的研究进展。行人检测的挑战和困难可以总结如下。
Small pedestrian:上图(a)显示了一些远离摄像机拍摄的小行人的例子。在 Caltech 数据集中,15%的行人高度小于30像素。
Hard negatives:街景图像中的一些背景与行人的视觉外观非常相似,如上图(b)所示。
Dense and occluded pedestrian:上图(c)显示了密集和遮挡行人的一些例子。在 Caltech 数据集中,未被遮挡的行人仅占行人总数的29%。
Real-time detection:从高清视频中实时检测行人对自动驾驶和视频监控等应用至关重要。
从根本上看,交通场景中各种具体应用的底层实现,都是以目标检测技术为基础的,即对道路、车辆以及行人进行检测。
场景四:工业检测
工业检测是计算机视觉的另一个重要应用领域,在各个行业均有极为广泛的应用。
在产品的生产过程中,由于原料、制造业工艺、环境等因素的影响,产品有可能产生各种各样的问题。其中相当一部分是所谓的外观缺陷,即人眼可识别的缺陷。
下图是电路板内层芯板断路示意图,明显可以看出图中铜导线有一个断开的部分。
在传统生产流程中,外观缺陷大多采用人工检测的方式进行识别,不仅消耗人力成本,也无法保障检测效果。
工业检测,就是利用计算机视觉技术中的目标检测算法,把产品在生产过程中出现的裂纹、形变、部件丢失等外观缺陷检测出来,达到提升产品质量稳定性、提高生产效率的目的。
场景五:仓库物品检测
场景六:文本检测Text Detection(OCR)
几千年来,文字一直是人类的主要信息载体。
文本检测的基本目标是确定给定图像中是否有文本,如果有,则定位并识别它
文本检测有着非常广泛的应用。它帮助视障人士 “ 阅读 ” 街道标志和货币。在地理信息系统中,对门牌号和街道标识的检测和识别使得构建数字地图更加容易。
文本检测的难点和挑战可以总结如下。
Different fonts and languages:文本可能有不同的字体、颜色和语言,如下图(a)所示。
Text rotation and perspective distortion:文本可能有不同的方向,甚至可能有透视失真,如下图(b)所示。
Densely arranged text localization:长径比大、布局密集的文本行很难精确定位,如下图(c)所示。
Broken and blurred characters:破碎和模糊的字符在街景图像中很常见。
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊