ResNet的公式 resnet计算量

转载

colddawn 2024-08-27 17:11:36

文章标签 ResNet的公式卷积神经网咯论文笔记目标检测 CNN 文章分类 架构后端开发

论文：CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN. Chien-Yao Wang,Hong-Yuan Mark Liao,I-Hau Yeh...

摘要

NN在CV领域取得了很大的成功，然而这个成功依赖于巨大计算量，不利于在移动设备上部署。本文提出了Cross Stage Partial Network(CSPNet)来解决这个问题。这里认为当前深度神经网络计算量大的原因是网络优化时重复计算梯度信息，CSPNet通过直接连接网络头部和尾部的特征图来增加梯度的多样性。实验中在ImageNet数据集上可以减少20%的计算量，精度甚至更高。在MS COCO目标检测数据集上超过了SOTA方法。CSPNet很容易实现，可以替代各种架构中的ResNet、ResNeXt和DenseNet

引言

随着NN的发展，所需的计算量越来越大，因此轻量级模型越来越受到关注。本文研究了SOTA模型：ResNet、ResNeXt、DenseNet的计算代价，然后设计了一些高效的组件，提出了CSPNet。CSPNet在减小计算量的同时增加了更多的梯度信息通路，将bese层的特征图划分为两个部分，然后通过跨阶段层级后将其合并。CSPNet的主要思想是通过对梯度流进行分割使其通过不同网络通路进行传播，这种方法表明通过 switching concatenation和transition steps，传播的梯度信息可以有很大的相关差异。CSPNet不仅计算量减小，速度提高，而且精度更高，如下图所示：

ResNet的公式 resnet计算量_ResNet的公式

本文提出的基于CSPNet的目标检测器，特点如下：

1)增强了CNNs的学习能力。通常将网络轻量化后精度会下降，而CSPNet能保持网络的学习能力。CSPNet可以应用在ResNet、ResNeXt、DenseNet上，计算量减少了10%-20%，但是精度反而提高。

2)去除了计算瓶颈。过高的计算瓶颈( bottlenecks )会导致更多的周期来完成推理过程，或者某些运算单元常常会闲置。因此CSPNet希望在CNN的每一层都能均匀地分配计算量，从而有效地提高每个计算单元的利用率，从而减少不必要的能量消耗。

3)减小内存占用。为了减小内存占用，CSPNet在特征金字塔生成时采用跨通道池化来压缩特征图。

因此CSPNet能以更小的模型达到更高的精度，能在GTX 1080ti上以109fps的速度达到50% COCO AP50。

CSPNet

DenseNet：DenseNet由多个Dense Block和Transition layer组成，如下图左所示：

ResNet的公式 resnet计算量_CNN_02

每个block有k层，第i层的输出将与第i层的输入进行拼接，拼接后的结果将作为i+1层的输入，公式表示如下：

ResNet的公式 resnet计算量_目标检测_03

其中*表示卷积运算，[]表示拼接操作。如果使用反向传播算法来更新权重，则权重更新的方程可以写成：

ResNet的公式 resnet计算量_卷积神经网咯_04

其中f是权重更新的函数，gi表示传播到第i层的梯度。可以发现更新时大量梯度信息被重用，这导致不同层重复学习复制的梯度信息。

Cross Stage Partial DenseNet：如图1(b)所示，CSPNet的每个阶段由一个partial dense block和一个partial transition layer组成。在partial dense block中，base layer的特征图根据通道被划分为两个部分x0=[x0’,x0’’]。x0’直接连接到阶段的尾部，而x0’’则穿过一个dense block。在partial transition layer中，第一个transition layer以所有层的输出[x0’’,x1,...,xk]拼接作为输入，得到输出xT，然后拼接[x0’,xT]作为第二个transition层的输入，得到最终的输出xU，整个过程如下所示：

ResNet的公式 resnet计算量_卷积神经网咯_05

可以看到，dense block中各层的梯度是分开集成的，而且没有经过dense block的x0’也是单独集成的。因此对于更新权重的梯度信息来说，两边都不包含属于另一边的重复的梯度信息。总体而言，本文提出的CSPDenseNet保留了DenseNet的特征重用特性，但同时通过截断梯度流来防止过多的重复梯度信息。该思想通过设计层次化的特征融合策略来实现，并应用于部分过渡层。

Partial Dense Block：设计partial dense blocks的出发点：

1)增加梯度路径。通过split and merge策略，梯度通路的数量翻倍。cross-stage策略减少了由于显式特征图拷贝拼接带来的缺点。

2)平衡各层计算量。DenseNet中base layer的通道数大于增长率。而这里base layer的通道被一分为二，故可以解决一半的计算瓶颈。

3)减少内存占用。若DenseNet中base layer的大小为wxhxc，增长率为d，共m层，则该dense block的CIO为(cxm)+(m^2+m)xd/2。而对应的partial dense block是((cxm)+(m^2+m)xd)/2。通常m和d小于c，则partial dense block能节省一半的内存占用。

Partial Transition Layer：设计partial transition layers的出发点是最大化梯度组成的差异。partial transition layer是一个分层的特征融合机制，采用截断梯度流的策略来防止不同层学习重复的梯度信息。除了原始版本外，这里还设计了其它两个CSPDenseNet的变体来展示梯度流截断是如何影响网络的学习能力的。如Figure 3(c)和Figure 3(d)是两种不同的融合策略。如果采用Figure 3(c)这种策略，那么大量的梯度信息将被重用；若采用Figure 3(c)这种策略，则由于梯度流被截断，那么梯度信息将不会被重用。

ResNet的公式 resnet计算量_目标检测_06