深度学习网络轻量化有什么好处网络模型轻量化

转载

墨染心语 2024-03-12 19:55:28

文章标签 深度学习网络轻量化有什么好处机器学习深度学习计算机视觉 cnn 文章分类 深度学习人工智能

深度学习网络轻量化有什么好处网络模型轻量化_深度学习网络轻量化有什么好处

A.为什么需要轻量化网络？

小模型有更高效的分布式训练效率。通信开销一直是分布式CNN训练的制约因素，在数据并行训练中，通信开销与模型参数是成比例的，模型越小，通信开销就越小。
推送一个新模型到客户端，开销更小。例如自动驾驶领域，汽车辅助驾驶系统中的CNN模型在更新的时候需要更大的数据传输，以AlexNet为例，从服务器到客户端至少需要240MB 通信开销，更小的模型需要更少的开销，日常更新更容易。
更容易在FPGA或嵌入式设备上部署。由于嵌入式设备经常是片内存储，不能外挂存储器件，同时存储空间越大，价格越高，更小的模型可以使模型部署变得简单。

SqueezeNet 取得了AlexNet级别的精度，但是参数量却少50倍。

B.CONCLUSIONS（paper凑字数）

在这篇论文中，提出了一种更严格的方法来探索卷积神经网络的设计空间,还将SqueezeNet压缩到小于0.5MB，比没有压缩的AlexNet小510倍。自2016年以技术报告的形式发布这篇论文以来，研究人员模型压缩进行了进一步的实验，使用了一种称为密集稀疏密集（DSD）的新方法。

本文以ImageNet作为目标数据集，当前使用ImageNet预训练的CNN模型用于各个应用已经是一种流行做法，例如图像中的logo识别、自动驾驶、道路形状分割等众多领域，对于各种应用，小模型将会越来越重要。

1.相关工作

首要目标是识别一个参数很少的模型，同时保持准确性。为了解决这个问题，一个明智的方法是采用现有的CNN模型，并以有损的方式对其进行压缩。事实上，围绕模型压缩这一主题，已经出现了一个研究社区，并且已经报告了几种方法。

Denton等人的一个相当简单的方法是将奇异值分解（SVD）应用于预训练CNN模型（
Han等人开发了网络剪枝，从预训练模型开始，然后用零替换低于某个阈值的参数，形成稀疏矩阵，最后在稀疏CNN上进行几次迭代训练。
Han等人将网络剪枝与量化（8位或更少）和huffman编码相结合，扩展了他们的工作，创建了一种称为深度压缩的方法，并进一步设计了一种称为EIE的硬件加速器，该加速器直接在压缩模型上运行，实现了显著的加速和节能。

2.CNN MicroArchitecture（微观）

神经网络中，卷积通常是3维的，高度、宽度以及通道。随着技术发展，5X5卷积、3X3卷积、1X1卷积陆续被提出使用，同时设计更深层的CNN也变得更流行，手动选择每一层的滤波器越发复杂。这种情况下，各种高阶building block或者modules被提出，这些模块包含多个特定顺序的卷积层，例如在GooleNet中提出的Inception modules，包含一些不同维度的滤波器，1X1和3X3，(如下图),再添加一些分类层就构成一个完整的神经网络，论文中使用术语CNN microarchitecture指代各个模块的具体组织和维度。

深度学习网络轻量化有什么好处网络模型轻量化_深度学习_02

3.CNN MacroArchitecture（宏观）

作者将CNN宏体系结构定义为将多个模块的系统级结构组成端到端的CNN体系结构。研究较多的是增加网络深度，如VGG，ResNet、Highway Networks。

4.NEURAL NETWORK DESIGN SPACE EXPLORATION

神经网络（包括深度神经网络和卷积神经网络）有很大的设计空间，拥有大量选择性如微体系结构、宏体系结构、solver和其他超参数。人们希望知道这些因素如何影响NN精度（例如：设计空间的形状）的直觉。大量在神经网络设计空间探索（DSE）方面的工作都集中在开发自动方法，以找到精度更高的NN体系结构。这些自动DSE方法包括贝叶斯优化（Snoek等人，2012年）、模拟退火（Ludermir等人，2006年）、随机搜索（Bergstra&Bengio，2012年）和遗传算法（Stanley&Miikkulainen，2002年）。值得赞扬的是，每一篇论文都提供了一个案例，在这个案例中，提出的DSE方法产生了一个NN体系结构，与代表性baseline相比，该体系结构实现了更高的精度。然而，这些论文并没尝试提供关于神经网络（NN）设计空间形状的直觉。在本文后面，避开了自动化方法–相反，作者重构CNN的方式是，进行原则性的A/B比较，以调查CNN结构如何影响模型尺寸大小和准确性。

5.SQUEEZENET: PRESERVING ACCURACY WITH FEW PARAMETERS

构建了一个新的building block： Fire module ，用来构建CNN结构，使用该模块搭建了SqueezeNet。

5.1 结构设计策略

减少参数量的同时，保证模型精度，为此作者采用了3个策略：

使用1X1卷积替代3X3卷积，因为前者比后者参数量少9倍。
减少输入channel的数量到3X3 filters。考虑一个完全由3x3滤波器组成的卷积层。该层中的参数总数为（输入通道数）（滤波器数）（3*3）。因此，为了在CNN中保持较少的参数总数，不仅要减少3x3滤波器的数量（参见1），而且要减少3x3卷积的输入通道数量。使用squeeze layer将输入通道的数量减少到3x3个滤波器。
在神经网络中延迟下采样（到末端再进行下采样），这样卷积层拥有较大的activation maps。在一个卷积网络中，每一个卷积层输出一个空间分辨率至少是1X1的activation map（通常远大于1X1）。这些激活映射的高度和宽度被以下因素控制：

输入数据的尺寸（如256X256 images）
CNN结构中下采样卷积层的选择

大多数情况下，下采样被集成到CNN结构中的卷积层或池化层（stride>1），早期的网络中stride比较大，因此大部分卷积层拥有较小的激活映射。相反，如果网络中的大多数层的stride为1，且大于1的stride集中在网络的末端，则网络中的大部分layer将具有较大的激活映射。我们的直觉是，在所有其他条件不变的情况下，大的activation maps（由于延迟下采样）可以得到更高的分类精度。事实上，K.He和H.Sun对四种不同的CNN结构应用了延迟下采样，并且在每种情况下延迟下采样都会得到更高的分类精度（He&Sun，2015）。

策略1和2 是在保持模型精度的条件下减少参数数量，策略3是在有限的参数量情况下最大化模型精度。

5.2 Fire module

深度学习网络轻量化有什么好处网络模型轻量化_深度学习网络轻量化有什么好处_03

一个Fire模块由以下部分组成：一个squeeze卷积层（只由1X1卷积构成），然后输入到由1X1卷积与3X3卷积混合构成的扩展layer。如图1所示。使用1X1卷积正是策略1的应用，作者在Fire moudle中暴露了3个可调维度（超参数）： $深度学习网络轻量化有什么好处网络模型轻量化_计算机视觉_04$ 、 $深度学习网络轻量化有什么好处网络模型轻量化_深度学习_05$ 、 $深度学习网络轻量化有什么好处网络模型轻量化_机器学习_06$ ，在Fire module中 $深度学习网络轻量化有什么好处网络模型轻量化_计算机视觉_04$ 是squeeze layer（全部1X1）的滤波器数目， $深度学习网络轻量化有什么好处网络模型轻量化_深度学习_05$ 是在扩展layer中1X1滤波器的数目， $深度学习网络轻量化有什么好处网络模型轻量化_机器学习_06$ 是在扩展layer中3X3卷积的数目。
当使用Fire module时，作者设置 $深度学习网络轻量化有什么好处网络模型轻量化_深度学习网络轻量化有什么好处_10$ 小于 $深度学习网络轻量化有什么好处网络模型轻量化_深度学习_11$ ,这样squeeze layer有助于限制输入channel的数目到3X3 filters，正对应策略2。

5.3 THE SQUEEZENET ARCHITECTURE

squeeze网络结构有以下特点：

网络开始是一个单独的卷积层（conv1），然后接着8个Fire module（fire2-9），最后以一个卷积层（conv10）结束；
在网络结构从开始到结束的每个Fire module中逐渐增加filters的数量；
SqueezeNet 在conv1、fire4、fire8、conv10之后都使用一个stride为2 的最大池化层处理；
这些延后使用的pooling对应策略3.

深度学习网络轻量化有什么好处网络模型轻量化_深度学习_12

网络设计的一些细节：

1X1和3X3卷积之后的激活输出映射拥有同样的高度和宽度，作者在输入数据上使用0 padding 增加一个1个像素的边界，然后到扩展module的3X3 filters。
ReLU 应用于来自squeeze和扩展layer的activation。
Dropout ratio 在fire9之后的module为0.5
注意到SqueezeNet中没有使用全连接层，这是来自NIN 结构的灵感。
训练开始学习率为0.04，然后线性减少，具体超参数细节见代码。
作者是使用caffee实现的网络，当然其它框架也可以。

5.4 模型评估

以AlexNet模型为比较基准。

下图为模型细节和参数，仿照inception表格。

深度学习网络轻量化有什么好处网络模型轻量化_深度学习网络轻量化有什么好处_13

比较SqueezeNet 与各种模型压缩方法

深度学习网络轻量化有什么好处网络模型轻量化_cnn_14

从表格中可以发现不经过任何处理的SqueezeNet，也就是32bit 网络实现了50倍的压缩，Top5与原始的AlexNet相当，Top1甚至超越了0.3%，对SqueezeNet使用深度压缩，可以再次减小模型尺寸同时保持精度不变。【这里对应了标题】这也说明深度压缩技术不仅仅适用于具有很多参数的CNN结构，并且能够压缩已经足够紧凑、缩减过的SqueezeNet模型。

6. CNN MICROARCHITECTURE DESIGN SPACE EXPLORATION

CNN微体系结构设计空间探索，虽然经过开头提出的3中小模型设计策略，提出了SqueezeNet模型，但SqueezeNet模型和其它模型还处于结构设计空间探索阶段，本文将这种结构探索其分为微观探索（per-module layer dimensions and configuration）和宏观探索（high-level end to end organization and other layers）

作者为此设计了一个实验，观察CNN结构的选择对于模型尺寸和精度的影响