unet神经网络代码详细 mobilenet神经网络

转载

laokugonggao 2023-11-10 22:33:21

文章标签 unet神经网络代码详细深度学习机器学习神经网络卷积 文章分类 神经网络人工智能

前言：
本文为MobileNet的简单介绍，尝试最少的废话进行介绍，适合快速入门。

背景

移动设备硬件资源和算力有限，不适合复杂深度学习模型。

轻量级神经网络

业内提出了SqueezeNet、ShuffleNet、NasNet、MnasNet、MobileNet以及EfficientNet等轻量级网络模型。本文主要介绍MobileNet。

MobileNet

MobileNet V1

核心

采用了深度可分离卷积降低计算量。

unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细

图1 深度可分离卷积

普通卷积：

对于输入 $unet神经网络代码详细 mobilenet神经网络_深度学习_02$ （ $unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_03$ 为输入通道数），以 $unet神经网络代码详细 mobilenet神经网络_神经网络_04$ 卷积核为例，卷积核实际大小为 $unet神经网络代码详细 mobilenet神经网络_卷积_05$ 。那么 $unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_06$ 个卷积核进行卷积操作

计算量 = $unet神经网络代码详细 mobilenet神经网络_机器学习_07$

参数量 = $unet神经网络代码详细 mobilenet神经网络_神经网络_08$

MobileNet的深度可分离卷积：

unet神经网络代码详细 mobilenet神经网络_神经网络_09

图2 深度可分离卷积操作示意图

将普通卷积拆分为一个dw (depthwise convolution)和一个1*1的卷积（文中叫pw (pointwise convolution)）操作。
dw可理解为 $unet神经网络代码详细 mobilenet神经网络_卷积_05$ 的卷积核变成 $unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_03$ 个 $unet神经网络代码详细 mobilenet神经网络_深度学习_12$ 卷积核，分别对每个通道进行卷积操作，再进行拼接得到 $unet神经网络代码详细 mobilenet神经网络_深度学习_02$ 的中间特征。pw则是采用 $unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_06$ 个 $unet神经网络代码详细 mobilenet神经网络_卷积_15$ 卷积核再次进行卷积操作，得到最终的输出。
计算量 = $unet神经网络代码详细 mobilenet神经网络_深度学习_16$
参数量 = $unet神经网络代码详细 mobilenet神经网络_机器学习_17$
比较：
参数量比值（速度可分离卷积/普通卷积） =
$unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_18$
计算量比值（速度可分离卷积/普通卷积） =
$unet神经网络代码详细 mobilenet神经网络_深度学习_19$
所以 $unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_20$ 的时候（卷积核数 $unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_06$ 一般比较大），参数量和计算量都降低到了原来的 $unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_22$ 到 $unet神经网络代码详细 mobilenet神经网络_深度学习_23$ 之间。

其他

网络结构中步长为2的卷积较有特点，卷积的同时充当下采样的功能。这种形式也正在逐渐代替池化层。
此外作者提出了ReLU6激活函数： $unet神经网络代码详细 mobilenet神经网络_卷积_24$ ReLU6将小数点后的信息限制为3位，这意味着我们可以保证小数点后的精度（为在移动端设备float16的低精度的时候，也能有很好的数值分辨率）。

MobileNet V2

v1中出现的问题：ReLU导致信息损耗，且通道数越少，这种损耗越严重。

核心

提出了Inverted Residuals（倒残差） and Linear Bottlenecks （线性瓶颈）

Linear Bottlenecks （线性瓶颈）

unet神经网络代码详细 mobilenet神经网络_unet神经网络代码详细_25

图3 Linear Bottlenecks （线性瓶颈）结构示意图

简单的说就是，为了降低计算成本MobileNet在输出Feature Map时采用了较小的模型宽度，即通道数。而通道数较少时使用ReLU激活函数导致信息严重损耗，所以当通道数较少的时候采用线性激活函数，Linear Bottlenecks （线性瓶颈）由此得名。

我们当然不能把ReLU全部换成线性激活函数，不然网络将会退化为单层神经网络，一个折中方案是在输出Feature Map的通道数较少的时候也就是bottleneck部分使用线性激活函数，其它时候使用ReLU。

Inverted Residuals（倒残差）

unet神经网络代码详细 mobilenet神经网络_机器学习_26

图4 传统残差结构（左图）和Inverted Residuals（倒残差，右图）

在ResNet的残差结构中，先降低通道数再卷积（减少计算量），再调整通道数后同输入合并。（两头大中间小）
而在Inverted Residual Block中，为了避免过少的通道数导致信息损失，先将通道数进行了扩增（速度可分离卷积已经实现了较小的计算量，增大通道数可以有效避免信息损失），再减少。（两头小中间大）

总结，相较于V1，V2模型更深，体积更小，速度更快！