🍊作者简介:秃头小苏,致力于用最通俗的语言描述问题

🍊专栏推荐:深度学习网络原理与实战

🍊近期目标:写好专栏的每一篇文章

🍊支持小苏:点赞👍🏼、收藏⭐、留言📩

MobileVIT原理详解篇

写在前面

Hello,大家好,我是小苏🧒🏽🧒🏽🧒🏽

  在之前,我已经为大家介绍过各种基础的深度神经网络,像AlexNet、VGG、ResNet等等,也为大家介绍过一些轻量级的网络,如ShuffleNet系列、MobileNet系列等等,当然也做过一系列Transformer的教学,感兴趣的可以去我主页搜搜看喔。🍵🍵🍵

  今天将为大家介绍一种新的网络结构——MobileVIT。🍄🍄🍄在具体介绍MobileVIT之前呢,我还是希望大家去阅读一些先验知识,链接如下:

  • CV攻城狮入门VIT(vision transformer)——近年超火的Transformer你再不了解就晚了! 🍁🍁🍁
  • CV攻城狮入门VIT(vision transformer)之旅——VIT原理详解篇 🍁🍁🍁
  • CV攻城狮入门VIT(vision transformer)之旅——VIT代码实战篇🍁🍁🍁
  • 详细且通俗讲解轻量级神经网络——MobileNets【V1、V2、V3】🍁🍁🍁

  如果你理解了上面四篇文章的话,那么其实MobileVIT对你来说会是很好理解的。当然如果你对Transformer感兴趣的话,可以再看看下面的两篇博客:

  • Swin Transformer原理详解篇🍀🍀🍀
  • Swin Transformer代码实战篇🍀🍀🍀

MobileVIT的优势

在介绍MobileVIT的网络结构之前,我们先来聊聊为什么使用MobileVIT,即MobileVIT有什么优势?其实呢,在我看来,为什么使用MobileVIT,就是希望减少Transformer模型庞大的模型参数和较慢的推理速度,希望能将其部署在移动端。那么在论文中也有说到MobileVIT的优势,让我们一起来看看叭。

  • 更好的性能: 在给定的参数预算下,与现有的轻量化cnn相比,MobileViT模型在不同的移动视觉任务中获得了更好的性能。
  • 更好的泛化能力:泛化能力是指训练和评价指标之间的差距。对于两个具有类似训练指标的模型,具有更好的评估指标的模型更具有通用性,因为它可以更好地预测不可见的数据集。。之前的ViT变体(带卷积和不带卷积)与CNN相比,即使有广泛的数据增强,其泛化能力也很差,MobileViT显示出更好的泛化能力。如下图所示,MobileViT显示了与cnn类似的泛化能力。

MobileVIT原理详解篇_泛化

  • 更好的鲁棒性:一个好的模型应该对超参数具有鲁棒性,因为调优这些超参数会消耗时间和资源。与大多数基于ViT的模型不同,MobileViT模型使用基本增强训练,对L2正则化不太敏感。

MobileVIT网络结构

论文中先是帮我们回顾了VIT的结构,如下图所示:

MobileVIT原理详解篇_人工智能_02

  你或与会发现这个图和我介绍VIT的原理时介绍的有些许差别,但是它们表达的含义都是一样的。首先会将图片划分成一个个patch,然后通过linear层将其转换成Token的形式,接着会加上位置编码并通过一系列Transformer结构,最后通过Linear层得到最终的输出。你对比一下上图和VIT中的结构,你会发现基本一致,主要是这里少加了Class token。


  上文回顾了一下VIT,下面就让我们直接来看一看MobileVIT的整体结构叭~~~🌵🌵🌵如下图所示:

MobileVIT原理详解篇_卷积_03

这个图画的非常简洁明了,我觉得大家可能存在疑惑的地方应该只有两个地方,第一个是这个MV2MV2 ↓2是什么结构?另一个就MobileViT block是什么结构?下面就让我们一个一个来看叭🌽🌽🌽

  • MV2MV2 ↓2结构
    这个结构其实就是MobileNetv2中的Inverted Residuals结构,不熟悉的点击☞☞☞了解详情。🌼🌼🌼这里我再简单帮大家回忆一下,Inverted Residuals的结构大致如下,即1x1卷积升维->3x3DW卷积->1x1卷积降维。🍚🍚🍚

细心的朋友应该发现了MV2MV2 ↓2有两个结构,这个Inverted Residuals就一个结构呀,怎么对应的呀?其实呢,MV2 ↓2表示进行了2倍下采样,MV2MV2 ↓2的结构分别如下:

MobileVIT原理详解篇_人工智能_04

  • MobileViT block结构

MobileViT block结构如下图所示:

MobileVIT原理详解篇_计算机视觉_05

  我们先来一些看一下上图,首先对于一个MobileVIT原理详解篇_卷积_06的特征图X,首先经过一个Local representations层,其由一个MobileVIT原理详解篇_泛化_07的卷积和一个MobileVIT原理详解篇_MobileVIT_08的卷积构成,MobileVIT原理详解篇_MobileVIT_08的卷积用来调整通道数,经过Local representations层后得到特征图尺寸为MobileVIT原理详解篇_泛化_10。跟在Local representations层后面的是Transformers as Convolution层,这一层是一个Unfold->Transformer->Fold结构,也是MobileVIT的重中之重,我们后面再详细为大家介绍,现在你只要知道经过这个Transformers as Convolution层后特征图的尺寸没有发生变换,仍然是MobileVIT原理详解篇_泛化_10。之后会通过MobileVIT原理详解篇_MobileVIT_08的卷积将特征图通道数调整为MobileVIT原理详解篇_泛化_13,即特征图尺寸变换成MobileVIT原理详解篇_卷积_06。最后会通过shortcut分支和原始特征图进行拼接,并通过一个MobileVIT原理详解篇_泛化_07的卷积得到最后的输出特征图。🍋🍋🍋

  相信你已经知道了MobileViT block的大体结构,但是对于Transformers as Convolution层还是一头雾水,下面就让我带领大家一起来看看这一部分。🍗🍗🍗

  这一部分分为三个结构,Unfold、Transformer以及Fold。先来说说Unfold和fold的操作叭。其实呀,这两个操作只是对数据的shape做了一些改变,让其符合Self-Attention结构的输入。那它们是怎么进行reshape的呢,如下图所示:

MobileVIT原理详解篇_MobileVIT_16

图片来源于B站霹雳吧啦Wz

  我想这里你应该会有疑问,这里为什么分patch操作,并弄不同的颜色表示呢?其实这就和后面的Transformer有关了。这里的Transformer结构相较与我之前介绍的有所改变,它会先对特征图进行patch划分,如下图划分patch大小为MobileVIT原理详解篇_人工智能_17,即每个Patch由4个像素构成。在进行Transformer的时候,图中的相同颜色的小色块会进行Attention,而不同颜色的则不会进行Attention操作,这样会减少计算量。🍦🍦🍦

  很多人可能都会问为什么要这么做,以及这么做的原因是什么。我给出霹雳吧啦Wz的看法,我认为是很有道理的:对于图像数据本身就存在大量的数据冗余,比如对于较浅层的特征图(H, W下采样倍率较低时),相邻像素间信息可能没有太大差异,如果每个Token做Attention的时候都要去看下相邻的这些像素,个人感觉有些浪费算力。这里并不是说看相邻的像素没有意义,只是说在分辨率较高的特征图上收益可能很低,增加的计算成本远大于Accuracy上的收益。而且前面已经通过nxn的卷积层进行局部建模了,进行全局建模时就没必要再看这么细了。🍍🍍🍍

MobileVIT原理详解篇_人工智能_18


图片来源于B站霹雳吧啦Wz

MobileVIT实验效果

  下图展示了MobileVIT在ImageNet上的效果,总的来说,MobileViTs易于优化和鲁棒性强。因此,MobileViT 可以很容易地应用于新的任务和数据集。

MobileVIT原理详解篇_计算机视觉_19

小结

  MobileVIT的原理部分就为大家介绍到这里啦,如果有不明白的地方欢迎评论区交流讨论。在下一节我将为大家介绍MobileVIT的代码实现,会进一步辅助大家理解MobileVIT的原理,一起加油叭~~~🥂🥂🥂

如若文章对你有所帮助,那就🛴🛴🛴

MobileVIT原理详解篇_MobileVIT_20