LightViT: 全局与局部的交互与强化

Arxiv 2207 | LightViT: Towards Light-Weight Convolution-Free Vision Transformers_Self

本文旨在改进轻量视觉Transformer模型的设计。

Arxiv 2207 | LightViT: Towards Light-Weight Convolution-Free Vision Transformers_Self_02

Arxiv 2207 | LightViT: Towards Light-Weight Convolution-Free Vision Transformers_人工智能_03

针对Transformer Block的改进

Arxiv 2207 | LightViT: Towards Light-Weight Convolution-Free Vision Transformers_Self_04

针对Self-Attention,在local attention计算得到的局部依赖的基础上,额外引入了global token与image token的交互。这一过程现将image token中的信息聚合,并更新global token。之后反过来再讲global token中的信息传播到image token上得到全局依赖。将全局与局部依赖整合更新image token。最终模块输出为更新后的image和global token。作者们将这一过程基于global token的更新过程称之为information squeeze-and-expand scheme,也就是信息压缩和扩张的形式,与seblock的形式本质上颇为类似。

针对FFN,在原来的点变换的基础上级联了一个双维度的注意力,从空间和通道两个维度上级进行了特征的强化。

在模型整体结构上

Arxiv 2207 | LightViT: Towards Light-Weight Convolution-Free Vision Transformers_Self_05

  • 移除了s=4的阶段,直接从原图尺寸的特征下采样8倍。这是因为作者们注意到早期的token数量过多并不是很有效。通过这样的设计,可以降低早期的运算负担。
  • 对于特征下采样中使用的patch merging层,在2x2的步长为2的卷积的基础上额外加了一条2x2最大池化后FC的支路。
  • 使用了重叠形式的patch embedding层。