ConvBERT: Improving BERT with Span-based Dynamic Convolution

摘要

虽然BERT的从全局产生了注意力map,我们观察到一些 注意力头 只需要学到局部的依赖即可,也就是BERT存在冗余。

于是我们提出 基于区间的动态卷积 来替换 自注意力头 来 直接建模局部依赖。

ConvBERT-BASE模型在GLUE达到86.4分,比ELECTRA-BASE高0.7分,同时仅用1/4的训练量。

做法

多头自注意力提取整体特征,卷积提取局部特征,

我们提出 将卷积结合自注意力 ,以成为混合注意力 来结合两者的优点,

ConvBERT 阅读笔记_卷积

(上图:)自注意力、动态卷积、区间动态卷积,(kernel应该就是卷积核的意思)

由于 动态卷积 只能输入一个token进行区分,

我们提出了 区间动态卷积,可以输入一个区间的token,也就是基于上下文进行区分,

ConvBERT 阅读笔记_卷积核_02


(上图:)自注意力、动态卷积、区间动态卷积,(LConv 表示轻量级的 depth-wise 卷积)

ConvBERT 阅读笔记_sed_03


(上图:)混合注意力模块

总结

本文贡献:率先提出结合卷积来提升BERT效率