YOLO三维目标检测 yolov3目标检测原理

转载

蓝梦之翼 2024-03-28 08:20:45

文章标签 YOLO三维目标检测 YOLO 深度学习神经网络卷积 文章分类 计算机视觉人工智能

Yolo V3的关键技术：

YOLO三维目标检测 yolov3目标检测原理_YOLO

V3改进的出发点是检测效果，最大的改进就是网络结构，更适合小目标检测
特征做的更细致，利用不同层的征图信息来预测不同规格物体
先验框更丰富了，3种scale，每种3个规格，一共9种
yolov1版本有2种先验框，v2版本有5种先验框，v3版本有9种先验框
softmax改进，预测多标签任务，每个种类都作为二分类

YOlO V3 多Scale
为了能检测到不同大小的物体，设计了3个scale特征图，1313,2626,52*52分别预测大，中，小三个目标。在每一种scale上产生三种box，一共产生9种候选框。

YOLO三维目标检测 yolov3目标检测原理_YOLO_02

核心网络架构

没有池化和全连接层，全部卷积
池化层压缩了特征，影响效果。
下采样通过stride为2实现，
通过卷积的stride为2 实现了下采样。
3种scale，更多先验框
基本上当下经典做法全融入了（引入了Res block）

YOLO三维目标检测 yolov3目标检测原理_神经网络_03

多scale特征图是怎么得到的呢？

网络输入尺寸是416，通过32倍下采样得到了13*13 特征图。
网络输入尺寸是416，通过16倍下采样，得到了2626特征图，并且再融合1313上采样到26*26的特征。
网络输入尺寸是416，通过8倍下采样，得到了5252特征图，并且再融合2626上采样到52*52的特征。

YOLOv3网络输出

YOLOv1的网络输出是772（4+1+80）
YOLOv2的网络输出是13135（4+1+80）
YOLOv3的网络输出是有三部分组成，分别是：13133*(4+1+80), 26263*(4+1+80) 和 52523(4+1+80)

YOLO三维目标检测 yolov3目标检测原理_神经网络_04

先验框设计

YOLOV1 用了YOLOV2中选了5个，Yolov3,一共有9种
$YOLO三维目标检测 yolov3目标检测原理_YOLO三维目标检测_05$ 特征图上：(116x90)，(156x198)，(373x326)
$YOLO三维目标检测 yolov3目标检测原理_YOLO_06$ 特征图上：(30x61)，(62x45)，(59x119)
$YOLO三维目标检测 yolov3目标检测原理_神经网络_07$ 特征图上：(10x13)，(16x30)，(33x23)

类别预测

yolov3不再使用softmax，作为内别预测，而只是使用独立的logistic分类器。在训练期间，我们使用二元交叉熵损失进行类预测。
在迁移到更复杂的领域（如Open Images Dataset）时，此方法会有所帮助。在此数据集中有许多重叠标签（即女人和人）。使用softmax假设每个框只有一个类，而通常不是这种情况。多标签方法可以更好地模拟数据。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。