YOLOv3一共107层,其中,0到74层为卷积层和res层;75-105为yolo层,具备检测功能,分类和回归。采用逻辑回归预测box

1.每一个小的卷积层内容:

conv2d+BatchNorm2d+LeakyRELU

这样的卷积结构先是有4个,

2.shortcuts:即skip步骤,resnet结构

输入与输出保持一致。为了解决网络的梯度弥散或者梯度爆炸的现象,提出将深层神经网络的逐层训练改为逐阶段训练,将深层神经网络分为若干个子段,每个小段包含比较浅的网络层数,然后用shortcut的连接方式使得每个小段对于残差进行训练,每一个小段学习总差(总的损失)的一部分,最终达到总体较小的loss,同时,很好的控制梯度的传播,避免出现梯度消失或者爆炸等不利于训练的情形。

3.yolo层,检测层

从75到105层为yolo网络的特征交互层,分为三个尺度,每个尺度内,通过卷积核的方式实现局部的特征交互,作用类似于全连接层但是是通过卷积核(3*3和1*1)的方式实现feature map之间的局部特征(fc层实现的是全局的特征交互)交互。

最小尺度yolo层: 
输入:13*13的feature map ,一共1024个通道。
操作:一系列的卷积操作,feature map的大小不变,但是通道数最后减少为75个。
输出;输出13*13大小的feature map,75个通道,在此基础上进行分类和位置回归。
中尺度yolo层:

输入:将79层的13*13、512通道的feature map进行卷积操作,生成13*13、256通道的feature map,然后进行上采样,生成26*26、256通道的feature map,同时于61层的26*26、512通道的中尺度的feature map合并。再进行一系列卷积操作,
操作:一系列的卷积操作,feature map的大小不变,但是通道数最后减少为75个。
输出:26*26大小的feature map,75个通道,然后在此进行分类和位置回归。
大尺度的yolo层:

输入:将91层的26*26、256通道的feature map进行卷积操作,生成26*26、128通道的feature map,然后进行上采样生成52*52、128通道的feature map,同时于36层的52*52、256通道的中尺度的feature map合并。再进行一系列卷积操作,
操作:一系列的卷积操作,feature map的大小不变,但是通道数最后减少为75个。
输出:52*52大小的feature map,75个通道,然后在此进行分类和位置回归。

4.本文引用: