前言:
本文为MobileNet的简单介绍,尝试最少的废话进行介绍,适合快速入门。

背景

移动设备硬件资源和算力有限,不适合复杂深度学习模型。

轻量级神经网络

业内提出了SqueezeNet、ShuffleNet、NasNet、MnasNet、MobileNet以及EfficientNet等轻量级网络模型。本文主要介绍MobileNet。

MobileNet

MobileNet V1
核心

采用了深度可分离卷积降低计算量。

unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细


图1 深度可分离卷积

普通卷积:

对于输入unet神经网络代码详细 mobilenet神经网络_深度学习_02unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_03为输入通道数),以unet神经网络代码详细 mobilenet神经网络_神经网络_04卷积核为例,卷积核实际大小为unet神经网络代码详细 mobilenet神经网络_卷积_05。那么unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_06个卷积核进行卷积操作

计算量 = unet神经网络代码详细 mobilenet神经网络_机器学习_07

参数量 = unet神经网络代码详细 mobilenet神经网络_神经网络_08

MobileNet的深度可分离卷积:

unet神经网络代码详细 mobilenet神经网络_神经网络_09


图2 深度可分离卷积操作示意图

将普通卷积拆分为一个dw (depthwise convolution)和一个1*1的卷积(文中叫pw (pointwise convolution))操作。
dw可理解为unet神经网络代码详细 mobilenet神经网络_卷积_05的卷积核变成unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_03unet神经网络代码详细 mobilenet神经网络_深度学习_12卷积核,分别对每个通道进行卷积操作,再进行拼接得到unet神经网络代码详细 mobilenet神经网络_深度学习_02的中间特征。pw则是采用unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_06unet神经网络代码详细 mobilenet神经网络_卷积_15卷积核再次进行卷积操作,得到最终的输出。
计算量 = unet神经网络代码详细 mobilenet神经网络_深度学习_16
参数量 = unet神经网络代码详细 mobilenet神经网络_机器学习_17
比较:
参数量比值(速度可分离卷积/普通卷积) =
unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_18
计算量比值(速度可分离卷积/普通卷积) =
unet神经网络代码详细 mobilenet神经网络_深度学习_19
所以unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_20的时候(卷积核数unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_06一般比较大),参数量和计算量都降低到了原来的unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_22unet神经网络代码详细 mobilenet神经网络_深度学习_23之间。

其他

  • 网络结构中步长为2的卷积较有特点,卷积的同时充当下采样的功能。这种形式也正在逐渐代替池化层。
  • 此外作者提出了ReLU6激活函数:unet神经网络代码详细 mobilenet神经网络_卷积_24ReLU6将小数点后的信息限制为3位,这意味着我们可以保证小数点后的精度(为在移动端设备float16的低精度的时候,也能有很好的数值分辨率)。
MobileNet V2

v1中出现的问题:ReLU导致信息损耗,且通道数越少,这种损耗越严重。

核心

提出了Inverted Residuals(倒残差) and Linear Bottlenecks (线性瓶颈)

Linear Bottlenecks (线性瓶颈)

unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_25


图3 Linear Bottlenecks (线性瓶颈)结构示意图

简单的说就是,为了降低计算成本MobileNet在输出Feature Map时采用了较小的模型宽度,即通道数。而通道数较少时使用ReLU激活函数导致信息严重损耗,所以当通道数较少的时候采用线性激活函数,Linear Bottlenecks (线性瓶颈)由此得名。

我们当然不能把ReLU全部换成线性激活函数,不然网络将会退化为单层神经网络,一个折中方案是在输出Feature Map的通道数较少的时候也就是bottleneck部分使用线性激活函数,其它时候使用ReLU。

Inverted Residuals(倒残差)

unet神经网络代码详细 mobilenet神经网络_机器学习_26


图4 传统残差结构(左图)和Inverted Residuals(倒残差,右图)

在ResNet的残差结构中,先降低通道数再卷积(减少计算量),再调整通道数后同输入合并。(两头大中间小)
而在Inverted Residual Block中,为了避免过少的通道数导致信息损失,先将通道数进行了扩增(速度可分离卷积已经实现了较小的计算量,增大通道数可以有效避免信息损失),再减少。(两头小中间大)

总结,相较于V1,V2模型更深,体积更小,速度更快!

MobileNet V3

将关注点从减少参数转移到减少操作的数量(MAdds)和实际测量的延迟。分为Large和Small两个版本,Large版本适用于计算和存储性能较高的平台,Small版本适用于硬件性能较低的平台。
使用神经架构搜索(NAS)技术生成的网络结构。

  • 引入了5×5大小的深度卷积代替部分3×3的深度卷积;
  • 引入Squeeze-and-excitation(SE)模块,参考图5~8;
  • 引入 h-swish(HS)激活函数;
  • unet神经网络代码详细 mobilenet神经网络_神经网络_27

  • 结尾两层逐点卷积不使用批规范化(Batch Norm),MobileNetV3结构图中使用NBN标识。
  • unet神经网络代码详细 mobilenet神经网络_卷积_28

图5 SE模块结构示意图

unet神经网络代码详细 mobilenet神经网络_深度学习_29


图6 SE模块的Squeeze部分结构示意图

unet神经网络代码详细 mobilenet神经网络_神经网络_30


图7 SE模块的Excitation部分结构示意图

unet神经网络代码详细 mobilenet神经网络_卷积_31


图8 ResNet和MobileNet中所用的SE模块结构对比