前言:
本文为MobileNet的简单介绍,尝试最少的废话进行介绍,适合快速入门。
背景
移动设备硬件资源和算力有限,不适合复杂深度学习模型。
轻量级神经网络
业内提出了SqueezeNet、ShuffleNet、NasNet、MnasNet、MobileNet以及EfficientNet等轻量级网络模型。本文主要介绍MobileNet。
MobileNet
MobileNet V1
核心
采用了深度可分离卷积降低计算量。
图1 深度可分离卷积
普通卷积:
对于输入(为输入通道数),以卷积核为例,卷积核实际大小为。那么个卷积核进行卷积操作
计算量 =
参数量 =
MobileNet的深度可分离卷积:
图2 深度可分离卷积操作示意图
将普通卷积拆分为一个dw (depthwise convolution)和一个1*1的卷积(文中叫pw (pointwise convolution))操作。
dw可理解为的卷积核变成个卷积核,分别对每个通道进行卷积操作,再进行拼接得到的中间特征。pw则是采用个卷积核再次进行卷积操作,得到最终的输出。
计算量 =
参数量 =
比较:
参数量比值(速度可分离卷积/普通卷积) =
计算量比值(速度可分离卷积/普通卷积) =
所以的时候(卷积核数一般比较大),参数量和计算量都降低到了原来的到之间。
其他
- 网络结构中步长为2的卷积较有特点,卷积的同时充当下采样的功能。这种形式也正在逐渐代替池化层。
- 此外作者提出了ReLU6激活函数:ReLU6将小数点后的信息限制为3位,这意味着我们可以保证小数点后的精度(为在移动端设备float16的低精度的时候,也能有很好的数值分辨率)。
MobileNet V2
v1中出现的问题:ReLU导致信息损耗,且通道数越少,这种损耗越严重。
核心
提出了Inverted Residuals(倒残差) and Linear Bottlenecks (线性瓶颈)
Linear Bottlenecks (线性瓶颈)
图3 Linear Bottlenecks (线性瓶颈)结构示意图
简单的说就是,为了降低计算成本MobileNet在输出Feature Map时采用了较小的模型宽度,即通道数。而通道数较少时使用ReLU激活函数导致信息严重损耗,所以当通道数较少的时候采用线性激活函数,Linear Bottlenecks (线性瓶颈)由此得名。
我们当然不能把ReLU全部换成线性激活函数,不然网络将会退化为单层神经网络,一个折中方案是在输出Feature Map的通道数较少的时候也就是bottleneck部分使用线性激活函数,其它时候使用ReLU。
Inverted Residuals(倒残差)
图4 传统残差结构(左图)和Inverted Residuals(倒残差,右图)
在ResNet的残差结构中,先降低通道数再卷积(减少计算量),再调整通道数后同输入合并。(两头大中间小)
而在Inverted Residual Block中,为了避免过少的通道数导致信息损失,先将通道数进行了扩增(速度可分离卷积已经实现了较小的计算量,增大通道数可以有效避免信息损失),再减少。(两头小中间大)
总结,相较于V1,V2模型更深,体积更小,速度更快!
MobileNet V3
将关注点从减少参数转移到减少操作的数量(MAdds)和实际测量的延迟。分为Large和Small两个版本,Large版本适用于计算和存储性能较高的平台,Small版本适用于硬件性能较低的平台。
使用神经架构搜索(NAS)技术生成的网络结构。
- 引入了5×5大小的深度卷积代替部分3×3的深度卷积;
- 引入Squeeze-and-excitation(SE)模块,参考图5~8;
- 引入 h-swish(HS)激活函数;
- 结尾两层逐点卷积不使用批规范化(Batch Norm),MobileNetV3结构图中使用NBN标识。
图5 SE模块结构示意图
图6 SE模块的Squeeze部分结构示意图
图7 SE模块的Excitation部分结构示意图
图8 ResNet和MobileNet中所用的SE模块结构对比