YOLO算法详解
YOLO算法出自于 You Only Look Once: Unified, Real-Time Object Detection。
目标检测与分析
图像识别算法是计算机视觉的基础算法,例如VGG,GoogLeNet,ResNet等,这类算法主要是判断图片中目标的种类。
目标检测和图像识别类似。但是目标检测不仅要识别图像中物体的类别,还要获得图像中物体的位置、大小、类别等,并返回其坐标值。
例如上图。在图像识别中,对于人,车,自行车这三类来说,图像识别会给出个预测的概率矩阵[0.1,0.9,0.1],因此该图像会被识别成车这一类别。而目标检测中,不仅要预测这是辆车,还要给出车的中心坐标,车的长和宽。对于目标检测来说,输出结果类似于这种格式:
其中:
- pc 为1时代表有物体被检测到,反之,没有物体被检测到,因此其他的输出值可以被忽略
- bx 目标的x坐标值 为目标的左上角到物体中心的相对坐标
- by 目标的y坐标值 为目标的右下角到物体中心的相对坐标值
- bh 区域框bounding box的高
- bw 区域框bounding box的宽
c1、c2、c3是目标属于人、车、自行车的概率,基于此,我们可以使用滑动窗口对整张图片进行处理来定位目标。就像是用一个放大镜去图像的每个区域去查找是否包含目标。这样的方法简单粗暴有效,但是效率极低,计算复杂度太高,所以不会这么去做。
YOLO_V1
目前,基于深度学习算法的一系列目标检测算法大致可以分为两大流派:
- 两步走(two-stage)算法:先产生候选区域然后再进行CNN分类(RCNN系列),
- 一步走(one-stage)算法:直接对输入图像应用算法并输出类别和相应的定位(YOLO系列)
之前的R-CNN系列虽然准确率比较高,但是即使是发展到Faster R-CNN,检测一张图片如上图所示也要7fps(原文为5fps),为了使得检测的工作能够用到实时的场景中,提出了YOLO。
YOLO是You Only Look Once的缩写。这也是为了特别突出YOLO区别于两阶段算法的特点,从名字就可以感受到,YOLO算法速度很快,事实上也是如此。可以看出在同样的设备上,YOLO可以达到45帧每秒的速度。
下面是YOLO的模型框架图: