目标检测算法 labview 目标检测算法yolo

转载

jacksky 2024-04-09 10:40:53

文章标签 目标检测算法 labview 卷积全连接权重 文章分类 计算机视觉人工智能

two-stage 和 one-stage

近几年来，目标检测算法取得了很大的突破。比较流行的算法可以分为两类，一类是基于Region Proposal的R-CNN系算法（R-CNN，Fast R-CNN, Faster R-CNN），它们是two-stage的，需要先使用启发式方法（selective search）或者CNN网络（RPN）产生Region Proposal，然后再在Region Proposal上做分类与回归。
而另一类是Yolo，SSD这类one-stage算法，其仅仅使用一个CNN网络直接预测不同目标的类别与位置。第一类方法是准确度高一些，但是速度慢，但是第二类算法是速度快，但是准确性要低一些。这可以在图2中看到。

YOLO算法的过程

yolo算法的核心是采用滑动窗口进行目标检测，它将检测问题转化为了图像分类问题。其基本原理就是采用不同大小和比例（宽高比）的窗口在整张图片上以一定的步长进行滑动，然后对这些窗口对应的区域做图像分类，这样就可以实现对整张图片的检测了。

卷积层和全连接层的区别

全连接层是在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。在实际使用中，全连接层可由卷积操作实现：对前层是全连接的全连接层可以转化为卷积核为1x1的卷积；而前层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积，h和w分别为前层卷积结果的高和宽。
全连接的核心操作就是矩阵向量乘积 Y=WX
本质就是由一个特征空间线性变换到另一个特征空间。

比如你的输入的feature map是2X2，那么就需要把这个feature map 拉成4X1的列向量，如果你的feature map 的channels是3，也就是你的输入是3X2X2，也就是相当于有了12个像素点，你就需要把feature map 拉成12X1的列向量，这时候，再乘一个权重，这个权重要把12个像素点都包含进去，所以这个权重的矩阵形式应该是1X12,所以经过一个全连接层后的输出就是1X12X12X1=1X1，这时候需要看你的需要多少个1X1的神经元了，如果是3个的话，那么输出就是3X（1X12X12X1）=3X（1X1）.这个3在权重矩阵中代表3行。

卷积层就相当于一个卷积核，对于传送过来的feature map进行局部窗口滑动，无论你输入的feature map多大(不能小于卷积核的大小)，都不会对卷积造成影响。
输入图像是32323，3是它的深度（即R、G、B），卷积层是一个553的filter(感受野)，这里注意：感受野的深度必须和输入图像的深度相同。通过一个filter与输入图像的卷积可以得到一个28281的特征图，上图是用了两个filter得到了两个特征图

区别
全连接层的权重矩阵是固定的，即每一次feature map的输入过来必须都得是一定的大小（即与权重矩阵正好可以相乘的大小），所以网络最开始的输入图像尺寸必须固定，才能保证传送到全连接层的feature map的大小跟全连接层的权重矩阵匹配。
卷积层就不需要固定大小了，因为它只是对局部区域进行窗口滑动，所以用卷积层取代全连接层成为了可能。

overfeat算法
2013年Yann Lecun在纽约大学的团队提出了著名的OverFeat算法，其利用滑动窗口和规则块生成候选框，再利用多尺度滑动窗口增加检测结果，解决图像目标形状复杂、尺寸不一问题，最后利用卷积神经网络和回归模型分类、定位目标。该算法首次将分类、定位以及检测三个计算机视觉任务放在一起解决，获得同年ILSVRC 2013任务3（分类+定位）的冠军，但其很快就被同期的R-CNN算法取代。

Yolo的CNN网络将输入的图片分割成 s x s 网格，然后每个单元格负责去检测那些中心点落在该格子内的目标，边界框的大小与位置可以用4个值来表征：（x,y,w,h），其中 (x,y) 是边界框的中心坐标，而 w 和 h 是边界框的宽与高。还有一点要注意，中心坐标的预测值 (x,y)是相对于每个单元格左上角坐标点的偏移值，并且单位是相对于单元格大小的。而边界框的 w 和 h 预测值是相对于整个图片的宽与高的比例，这样理论上4个元素的大小应该在 [0,1] 范围。这样，每个边界框的预测值实际上包含5个元素： (x,y,w,h,c)，其中前4个表征边界框的大小与位置，而最后一个值是置信度。

目标检测算法 labview 目标检测算法yolo_卷积

Yolo采用卷积网络来提取特征，然后使用全连接层来得到预测值。网络结构参考GooLeNet模型，包含24个卷积层和2个全连接层。对于卷积层，主要使用1x1卷积来做channle reduction，然后紧跟3x3卷积。对于卷积层和全连接层，采用Leaky ReLU激活函数。但是最后一层却采用线性激活函数。

目标检测算法 labview 目标检测算法yolo_卷积_02

先在ImageNet上进行了预训练，其预训练的分类模型采用图中前20个卷积层，然后添加一个average-pool层和全连接层。预训练之后，在预训练得到的20层卷积层之上加上随机初始化的4个卷积层和2个全连接层。由于检测任务一般需要更高清的图片，所以将网络的输入从224x224增加到了448x448。整个网络的流程如下图所示:

目标检测算法 labview 目标检测算法yolo_卷积_03