paddle对比pytorch的优势 paddlepaddle vs pytorch

转载

编程梦想家 2023-10-21 00:19:03

文章标签 paddle对比pytorch的优势 python ide 卷积权重 文章分类 PyTorch 人工智能

2021SC@SDUSC

接上篇我们继续分析PaddleDetection使用的yolov4算法中的网络改进相关

3、网络改进

3.1增加感受野技巧

提出yolov4算法论文主要提到:SPP层、ASPP和RFB。

(1) SPP层

paddle对比pytorch的优势 paddlepaddle vs pytorch_paddle对比pytorch的优势

其结构如上所示，内部采用不同大小的kernel size和strdie实现不同感受野特征输出，然后concat即可，在yolov3-spp里面有具体结构：

---- START SPP -----
[maxpool]
stride=1
size=5
[route]
layers=-2
[maxpool]
stride=1
size=9
[route]
layers=-4
[maxpool]
stride=1
size=13
[route]
layers=-1,-3,-5,-6
----End SPP ----

即上一层的特征图输入是13x13x512，然后三个分支分别是stride=1，kernel size为5,9,13,然后三个图拼接，得到13x13x2048的图，然后

[convolutional]
batch_normalize=1
filters=512
size=1
stride=1
pad=1
activation=leaky

接一个1x1卷积，得到13x13x512的特征图，然后进行后续操作。

(2) ASPP

paddle对比pytorch的优势 paddlepaddle vs pytorch_ide_02

ASPP和SPP的差别是，并不是采用max pool得到不同感受野的特征图，而是采用卷积实现，且其kernel size全部是3，但是引入了不同的空洞率来变相扩大感受野。其余操作和SPP一致，ASPP来自DeepLab论文。

(3) RFB

paddle对比pytorch的优势 paddlepaddle vs pytorch_ide_03

RFB结构来自RFBNet，效果不错，计算量也不大，可以看出RFB是ASPP的推广，其采用了不同大小的kernel和不同的空洞率，相比ASPP，计算量减少不少，效果应该差不多。RFB在推理阶段引入的计算量非常小，但是在ssd中AP提高蛮多，是个不错的选择。

3.2 注意力机制技巧

paddle对比pytorch的优势 paddlepaddle vs pytorch_卷积_04

论文中主要是提到了SE和SAM模块

SE模块比较简单，目的是对特征通道进行重新加权，如上图所示。

paddle对比pytorch的优势 paddlepaddle vs pytorch_卷积_05

SAM是CBAM论文中的空间注意力模块。其流程是：将Channel attention模块输出特征图作为本模块的输入特征图。首先做一个基于channel的global max pooling 和global average pooling，然后将这2个结果基于channel 做concat操作。然后经过一个卷积操作，降维为1个channel。再经过sigmoid生成spatial attention feature。最后将该feature和该模块的输入feature做乘法，得到最终生成的特征。

SE模块可以提升大概1%的ImageNet top-1精度，增加2%计算量，但推理时有10%的速度损失，对GPU不太友好，而SAM模块仅仅增加0.1%计算量，提升0.5%的top-1准确率，故本文选择的其实是SAM模块。

yolov4对SAM进行简单修改，如下所示：

paddle对比pytorch的优势 paddlepaddle vs pytorch_paddle对比pytorch的优势_06

修改spatial-wise attention 为 pointwise attention，简化了流程，目的应该也是为了提高训练速度。

3.3 特征融合技巧

特征融合，主要是指不同输出层直接的特征融合，主要包括FPN、PAN、SFAM、ASFF和BiFPN。

(1) FPN

paddle对比pytorch的优势 paddlepaddle vs pytorch_ide_07

FPN是目前最主流的不同层融合方案，应用非常广泛，其结构为：

FPN仅仅融合相邻层的特征图，采用上采样或者下采样操作得到尺度一致的特征图，然后采用add操作得到融合后特征图。

(2) PAN

paddle对比pytorch的优势 paddlepaddle vs pytorch_paddle对比pytorch的优势_08

PAN来自论文：Path Aggregation Network for Instance Segmentation。其结构如下所示：

FPN加入top-down的旁路连接，能给feature增加high-level语义,有利于分类。但是PAN论文作者觉得low-level的feature很有利于定位，虽然FPN中P5也间接融合了low-level的特征，但是信息流动路线太长了如红色虚线所示，其中会经过超多conv操作，本文在FPN的P2-P5又加了low-level的特征，最底层的特征流动到N2-N5只需要经过很少的层如绿色需要所示，主要目的是加速信息融合,缩短底层特征和高层特征之间的信息路径。down-top的融合做法是：

paddle对比pytorch的优势 paddlepaddle vs pytorch_卷积_09

其实不管作者如何解释motivation，这种top-down和donw-top的做法，看起来也比较make sense，后面的很多FPN改进都用到了这个思想。

(3) SFAM

SFAM来自M2det: A single-shot object detector based on multi-level feature pyramid network

paddle对比pytorch的优势 paddlepaddle vs pytorch_paddle对比pytorch的优势_10

其中SFAM结构如下所示：

SFAM全称是Scale-wise Feature Aggregation Module，不同尺度的特征进行重组和融合，基本原理是对不同TUM的输出（每个TUM有6个不同尺度的输出），将其中相同尺度的特征进行concat，然后经过一个SE模块（对通道进行reweighting）输出，然后进行检测。其实就是把相同尺度的各层金字塔特征提取出来，然后concat，经过se模块，进行通道加权，再进行后续的预测，实现对不同通道进行不同加权功能。看起来开销有点大呀，因为要多个stage。

和FPN及其改进版本的不同是SFAM的融合是尺度感知的，只融合相同尺度的特征，而不是像FPN那样，强制上下采样然后进行融合。

(4) ASFF

paddle对比pytorch的优势 paddlepaddle vs pytorch_python_11

ASFF来自论文：Learning Spatial Fusion for Single-Shot Object Detection，也就是著名的yolov3-asff

FPN操作是一个非常常用的用于对付大小尺寸物体检测的办法，作者指出FPN的缺点是不同尺度之间存在语义gap，举例来说基于iou准则，某个gt bbox只会分配到某一个特定层，而其余层级对应区域会认为是背景(但是其余层学习出来的语义特征其实也是连续相似的，并不是完全不能用的)，如果图像中包含大小对象，则不同级别的特征之间的冲突往往会占据要素金字塔的主要部分，这种不一致会干扰训练期间的梯度计算，并降低特征金字塔的有效性。一句话就是：目前这种concat或者add的融合方式不够科学。本文觉得应该自适应融合，自动找出最合适的融合特征, 简要思想就是：原来的FPN add方式现在变成了add基础上多了一个可学习系数，该参数是自动学习的，可以实现自适应融合效果，类似于全连接参数。 ASFF具体操作包括 identically rescaling和adaptively fusing。

定义FPN层级为l，为了进行融合，对于不同层级的特征都要进行上采样或者下采样操作，用于得到同等空间大小的特征图，上采样操作是1x1卷积进行通道压缩，然后双线性插值得到；下采样操作是对于1/2特征图是采样3 × 3 convolution layer with a stride of 2，对于1/4特征图是add a 2-stride max pooling layer然后引用stride 卷积。其自适应融合过程如下：

paddle对比pytorch的优势 paddlepaddle vs pytorch_paddle对比pytorch的优势_12