深度学习从入门到精通——yolov3

原创

qq5b42bed9cc7e9 2022-11-01 16:55:07 博主文章分类：计算机视觉 ©著作权

文章标签 计算机视觉人工智能深度学习目标检测卷积 文章分类 云平台云计算

©著作权归作者所有：来自51CTO博客作者qq5b42bed9cc7e9的原创作品，请联系作者获取转载授权，否则将追究法律责任

YOLO v3

论文地址：https://pjreddie.com/media/files/papers/YOLOv3.pdf
论文：YOLOv3: An Incremental Improvement

深度学习从入门到精通——yolov3_卷积

先验框

(10×13)，(16×30)，(33×23)，(30×61)，(62×45)，(59× 119)， (116 × 90)， (156 × 198)，(373 × 326) ，顺序为w × h

Yolov3中，只有卷积层，通过调节卷积步长控制输出特征图的尺寸。所以对于输入图片尺寸没有特别限制。
Yolov3借鉴了金字塔特征图思想，小尺寸特征图用于检测大尺寸物体，而大尺寸特征图检测小尺寸物体。特征图的输出维度为 $深度学习从入门到精通——yolov3_计算机视觉_02$ 为输出特征图格点数，一共3个Anchor框，每个框有 4 维预测框数值 $深度学习从入门到精通——yolov3_深度学习_03$ 维预测框置信度， 80 维物体类别数。所以第一层特征图的输出维度为 $深度学习从入门到精通——yolov3_计算机视觉_04$
多尺度输出：Yolov3总共输出3个特征图，第一个特征图下采样32倍，第二个特征图下采样16倍，第三个下采样8倍。输入图像经过Darknet-53 (无全连接层)，再经过Yoloblock生成的特征图被当作两用，第一用为经过 $深度学习从入门到精通——yolov3_目标检测_05$ 卷积层、 $深度学习从入门到精通——yolov3_深度学习_06$ 卷积之后生成特征图一，第二用为经过 $深度学习从入门到精通——yolov3_深度学习_06$
concat操作与加和操作的区别：加和操作来源于ResNet思想，将输入的特征图，与输出特征图对应维度进行相加，即 $深度学习从入门到精通——yolov3_计算机视觉_08$ ；而concat操作源于DenseNet网络的设计思路，将特征图按照通道维度直接进行拼接，例如 $深度学习从入门到精通——yolov3_卷积_09$ 的特征图与 $深度学习从入门到精通——yolov3_卷积_09$ 的特征图拼接后生成 $深度学习从入门到精通——yolov3_卷积_11$
上采样层(upsample)：作用是将小尺寸特征图通过揷值等方法，生成大尺寸图像。例如使用最近邻揷值算法，将 $深度学习从入门到精通——yolov3_深度学习_12$ 的图像变换为 $深度学习从入门到精通——yolov3_目标检测_13$

Yolo的整个网络，吸取了Resnet、Densenet、FPN的精髓，可以说是融合了目标检测当前业界最有效的全部技巧。

每个框的输出

针对coco：80(类别)+ $深度学习从入门到精通——yolov3_计算机视觉_14$ (每个框的x,y,w,h,conf) ，一共85，三个框：85*3 = 255

损失函数

使用交叉熵进行类别计算6.Ground Truth的计算

Ground Truth

既然网络预测的是偏移值，那么在计算损失时，也是按照偏移值计算损失。现在我们有预测的值，还需要真值Ground Truth的偏移值，用于计算损失的GT按照以下公式得到:
$深度学习从入门到精通——yolov3_目标检测_15$

为什么在计算Ground Truth的tw，th时需要缩放到对数空间

tw和th是物体所在边框的长宽和anchor box长宽之间的比率。不直接回归bounding box的长宽，而是为避免训练带来不稳定的梯度，将尺度缩放到对数空间。如果直接预测相对形变tw 和 th，那么要求tw, th $深度学习从入门到精通——yolov3_卷积_16$

对于三个框，选取IOU值最大的那个框。

每个GT目标仅与一个anchor相关联，与GT匹配的anchor box计算坐标误差、置信度误差（此时target为1）以及分类误差，而其他anchor box只计算置信度误差（此时target为0）。
对于重叠大于等于0.5的其他先验框(anchor)，忽略，不算损失。
总的来说，正样本是与GT的IOU最大的框。负样本是与GT的IOU<0.5的框。忽略的样本是与GT的IOU>0.5 但不是最大的框。

代码实现

SPP

class SPP(nn.Module):
    # Spatial Pyramid Pooling (SPP) layer https://arxiv.org/abs/1406.4729
    def __init__(self, c1, c2, k=(5, 9, 13)):
        super().__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_ * (len(k) + 1), c2, 1, 1)
        self.m = nn.ModuleList([nn.MaxPool2d(kernel_size=x, stride=1, padding=x // 2) for x in k])

    def forward(self, x):
        x = self.cv1(x)
        with warnings.catch_warnings():
            warnings.simplefilter('ignore')  # suppress torch 1.9.0 max_pool2d() warning
            return self.cv2(torch.cat([x] + [m(x) for m in self.m], 1))

BottleneckCSP

class BottleneckCSP(nn.Module):
    # CSP Bottleneck https://github.com/WongKinYiu/CrossStagePartialNetworks
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):  # ch_in, ch_out, number, shortcut, groups, expansion
        super().__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = nn.Conv2d(c1, c_, 1, 1, bias=False)
        self.cv3 = nn.Conv2d(c_, c_, 1, 1, bias=False)
        self.cv4 = Conv(2 * c_, c2, 1, 1)
        self.bn = nn.BatchNorm2d(2 * c_)  # applied to cat(cv2, cv3)
        self.act = nn.SiLU()
        self.m = nn.Sequential(*(Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)))

Bottleneck

class Bottleneck(nn.Module):
    # Standard bottleneck
    def __init__(self, c1, c2, shortcut=True, g=1, e=0.5):  # ch_in, ch_out, shortcut, groups, expansion
        super().__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_, c2, 3, 1, g=g)
        self.add = shortcut and c1 == c2

    def forward(self, x):
        return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))