作者主页(​​文火冰糖的硅基工坊​​​):​​文火冰糖(王文兵)的博客_文火冰糖的硅基工坊


目录

​前言:​

​场景一:统计目标的个数​

​1.1 电子元器件数统计​

​1.2 电子显微镜下不同细胞数量的统计​

​1.3 人群中人数的统计​

​场景二:阿里云视觉智能开放平台上线的目标检测能力​

​场景三:智慧交通​

​场景四:工业检测​

​场景五:仓库物品检测​

​场景六:文本检测Text Detection(OCR)​


前言:

目标检测,如YOLO算,有哪些实际应用呢? 在回答这个问题之前,我们首先看一下目标检测的基本任务:

  • 图片中目标的检测(置信度)
  • 图片中目标的定位(位置)
  • 图片中目标的分类(分类)

基于上述三大基本任务,衍生出各种场景的应用。

场景一:统计目标的个数

1.1 电子元器件数统计

背景:电子厂的电子元器件生产流水线,特别是插件散装的器件,可以用电子称称量计算出个数,但误差还是不能接受,尝试图像识别方案,目测能解决这个问题!

[人工智能-深度学习-77]:目标检测 - 常见项目、应用_人工智能

1.2 电子显微镜下不同细胞数量的统计

显微镜下细胞的统计是一个很繁琐的事,通常采用局部采用,然后进行全局推广的方式统计细胞的总数,如果采用高分辨率图片 + 小目标检测,可以精确判断各种细胞的数量。

[人工智能-深度学习-77]:目标检测 - 常见项目、应用_目标检测_02

1.3 人群中人数的统计

主要用于判断交通信号,对行人的反应,夜间交通,检测​开会人数​等应用。

[人工智能-深度学习-77]:目标检测 - 常见项目、应用_目标检测_03

场景二:阿里云视觉智能开放平台上线的目标检测能力

阿里云视觉智能开放平台上线的目标检测能力,通过这些能力,可以看到目标检测的一些常用应用。

类别

能力

说明

通用检测

​主体检测​

检测图像中的内容主体,返回该主体的区域位置/坐标信息。

​白底图检测​

检测图片背景是否为白底。

​透明图检测​

检测图片背景是否透明。

​物体检测​

检测输入图像中的物体。

​IPC图像目标检测​

可以检测到输入图像中的目标物体,例如人、车辆、宠物等。

​IPC视频目标检测​

可以检测到输入视频中的目标物体,例如人、车辆、宠物等。

车辆检测

​车辆损伤识别​

针对常见小汽车车型,识别车辆外观受损部件及损伤类型,可识别数十种车辆部件,五大类外观损伤(刮擦、凹陷、开裂、褶皱、穿洞)。

​车辆部件识别​

检测图片中车辆部件的位置以及名称。

​车辆仪表盘识别​

识别车辆仪表盘上故障灯等信息。

​机动车检测​

检测图像中的机动车主体,返回该机动车主体的区域位置/坐标信息。

​车险图片分类​

对输入的车险图片进行分类。

​车辆拥堵检测​

根据图片中的车辆,判断是否发生拥堵。

​车辆违停检测​

可通过检测图片中目标区域内是否有车辆停放。

车辆维修

​生成车辆维修方案​

识别车辆受损照片,并根据受损情况生成车辆维修方案。

​查询车辆维修方案及费用​

根据生成的维修方案,查询车辆具体的维修方案及维修费用。

场景三:智慧交通

智慧交通是目标检测的一个重要应用领域,主要包括如下场景。

(1)交通流量监控与红绿灯配时控制:​通过视觉算法,对道路卡口相机和电警相机中采集的视频图像进行分析,根据相应路段的​车流量​,调整红绿灯配时策略,提升交通通行能力。

(2)异常事件检测:​通过视觉算法,检测各种交通​异常事件​,包括非机动车驶入机动车道、车辆占用应急车道以及监控危险品运输车辆驾驶员的驾驶行为、交通事故实时报警等,第一时间将异常事件上报给交管部门。

(3)交通违法事件检测和追踪:​通过视觉算法,发现套牌车辆、收费站逃费现象,跟踪肇事车辆,对可疑车辆/行人进行全程轨迹追踪,通过视觉技术手段,极大地提升公安/交管部门的监管能力。

(4)自动驾驶:​自动驾驶是当今热门的研究领域,是一个多种前沿技术高度交叉的研究方向,其中视觉相关算法主要包含对道路、车辆以及行人的检测,对交通标志物以及路旁物体的检测识别等。主流的人工智能公司都投入了大量的资源进行自动驾驶方面的研发,目前已经初步实现了受限路况条件下的自动驾驶,但距离实现不受路况、天气等因素影响的自动驾驶(L4级别),尚有相当大的一段距离。

(5)行人检测:​作为一种重要的目标检测应用,在自动驾驶、视频监控、刑事侦查等领域得到了广泛的关注。早期的行人检测方法,如HOG检测器,ICF检测器,在特征表示,分类器的设计,检测加速度方面,为一般的目标检测奠定了坚实的基础。近年来,一些通用的目标检测算法,如Faster RCNN,已经被引用到行人检测中,极大地推动了该领域的研究进展。行人检测的挑战和困难可以总结如下。

Small pedestrian:上图(a)显示了一些远离摄像机拍摄的小行人的例子。在 Caltech 数据集中,15%的行人高度小于30像素。

Hard negatives:街景图像中的一些背景与行人的视觉外观非常相似,如上图(b)所示。

Dense and occluded pedestrian:上图(c)显示了密集和遮挡行人的一些例子。在 Caltech 数据集中,未被遮挡的行人仅占行人总数的29%。

Real-time detection:从高清视频中实时检测行人对自动驾驶和视频监控等应用至关重要。

从根本上看,交通场景中各种具体应用的底层实现,都是以目标检测技术为基础的,即对道路、车辆以及行人进行检测。

场景四:工业检测

工业检测是计算机视觉的另一个重要应用领域,在各个行业均有极为广泛的应用。

在产品的生产过程中,由于原料、制造业工艺、环境等因素的影响,产品有可能产生各种各样的问题。其中相当一部分是所谓的​外观缺陷,即人眼可识别的缺陷。

下图是电路板内层芯板​断路​示意图,明显可以看出图中铜导线有一个断开的部分。

[人工智能-深度学习-77]:目标检测 - 常见项目、应用_应用场景_04

在传统生产流程中,​外观缺陷​大多采用​人工检测​的方式进行识别,不仅消耗人力成本,也无法保障检测效果。

工业检测,就是利用计算机视觉技术中的目标检测算法,把产品在生产过程中出现的​裂纹、形变、部件丢失等​外观缺陷​检测出来​,达到提升产品质量稳定性、提高生产效率的目的。

场景五:​仓库物品检测

[人工智能-深度学习-77]:目标检测 - 常见项目、应用_人工智能_05

场景六:文本检测Text Detection​(OCR)

几千年来,文字一直是人类的主要信息载体。

文本检测的基本目标是确定给定图像中是否有文本,如果有,则定位并识别它

文本检测有着非常广泛的应用。它帮助视障人士 “ 阅读 ” 街道标志和货币。在地理信息系统中,对门牌号和街道标识的检测和识别使得构建数字地图更加容易。

文本检测的难点和挑战可以总结如下。

Different fonts and languages:​文本可能有不同的字体、颜色和语言,如下图(a)所示。

Text rotation and perspective distortion​:文本可能有不同的方向,甚至可能有透视失真,如下图(b)所示。

Densely arranged text localization​:长径比大、布局密集的文本行很难精确定位,如下图(c)所示。

Broken and blurred characters:​破碎和模糊的字符在街景图像中很常见。

[人工智能-深度学习-77]:目标检测 - 常见项目、应用_应用场景_06


作者主页(​​文火冰糖的硅基工坊​​​):​​文火冰糖(王文兵)的博客_文火冰糖的硅基工坊