Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions

原创

開心的猫 2022-12-14 12:35:47 博主文章分类：深度学习 ©著作权

文章标签 深度学习计算机视觉神经网络注意力机制 Transformer 文章分类 运维

©著作权归作者所有：来自51CTO博客作者開心的猫的原创作品，请联系作者获取转载授权，否则将追究法律责任

HorNet：使用递归门控卷积构建高阶空间交互

Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_注意力机制

论文：https://arxiv.org/abs/2207.14284
代码：https://github.com/raoyongming/HorNet/blob/master/hornet.py
解析：https://mp.weixin.qq.com/s/MyMIPv-bn9wVMLABurjOUA

这篇文章旨在使用卷积结构设计一种更加有效的空间交互模块。作者们通过递归门控策略设计了递归门控卷积操作，从而在特征内部构建了更高阶的空间交互过程。这种结构可以作者为一种即插即用的模块来提升视觉Transformer或者卷积模型。除了构建backbone，也可以用于解码器来提升密集预测任务的性能。

本文将Vision Transformer成功背后的关键因素总结为三点：

输入自适应
长距离依赖关系
高阶空间交互

这三点主要由Self Attention操作实现。

Recursive Gated Convolution

Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_神经网络_02

这是本文的核心结构。其完全围绕卷积操作构建。其主要包含三点好处：

有效性（efficient）：卷积实现避免了Self Attention的平方复杂度。
可扩展性（extendable）：可以通过调整参数实现更高阶的空间交互，从而进一步提升模型的建模能力。而且结构中可以兼容不同的卷积核大小以及空间混合策略，像是更大卷积核的深度分离卷积或者是基于傅里叶变换的Global Filter。
平移等变性：由于核心操作仍然基于卷积，所以整体也继承了卷积的平移等变性。这为模型引入了有益的归纳偏置，避免由于局部注意力带来的非对称性。

结构具体操作流程延续了递归的思想，对输入构造不同的分支，各分支渐进式的实现了一种递归的形式。

Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_Transformer_03

模块具体运算流程如下：

整体模型基础构建block仍然延续Vision Transformer的形式，且遵循pre-norm策略。其中的Self Attention被替换为gnconv。
经过一个独立的卷积层后通道数被调整为输入通道数C的两倍，即2C。
对于指定的阶数n，对2C依此除以n次2获得n个不同通道数的组和。
将n个通道数从小到大排序后表示为 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_深度学习_04$ （ $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_计算机视觉_05$ ）。
将前面的输出分为 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_Transformer_06$ 和 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_注意力机制_07$ 两组，分别表示为 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_计算机视觉_08$ 和 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_深度学习_09$ 。
$Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_深度学习_09$ 整体通过一个独立的7x7的深度分离卷积或者是global filter后乘以一个独立的放缩系数。
$Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_深度学习_09$ 按照 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_Transformer_06$ 、 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_Transformer_13$ 、…、 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_Transformer_14$ 拆分为n组得到 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_深度学习_15$ 、 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_计算机视觉_16$ 、…、 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_计算机视觉_17$ 。
$Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_计算机视觉_18$
$Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_注意力机制_19$
输出通过对 $Arxiv 2207 | HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions_深度学习_20$ 进行1x1卷积即可，通道数不变，因为此时的通道数恰好等于输入通道。