ConvBERT 阅读笔记

原创

TechOnly 2022-07-19 16:29:36 博主文章分类：自然语言处理 ©著作权

©著作权归作者所有：来自51CTO博客作者TechOnly的原创作品，请联系作者获取转载授权，否则将追究法律责任

ConvBERT: Improving BERT with Span-based Dynamic Convolution

摘要

虽然BERT的从全局产生了注意力map，我们观察到一些注意力头只需要学到局部的依赖即可，也就是BERT存在冗余。

于是我们提出基于区间的动态卷积来替换自注意力头来直接建模局部依赖。

ConvBERT-BASE模型在GLUE达到86.4分，比ELECTRA-BASE高0.7分，同时仅用1/4的训练量。

多头自注意力提取整体特征，卷积提取局部特征，

我们提出将卷积结合自注意力，以成为混合注意力来结合两者的优点，

ConvBERT 阅读笔记_卷积

（上图：）自注意力、动态卷积、区间动态卷积，（kernel应该就是卷积核的意思）

由于动态卷积只能输入一个token进行区分，

我们提出了区间动态卷积，可以输入一个区间的token，也就是基于上下文进行区分，

ConvBERT 阅读笔记_卷积核_02

（上图：）自注意力、动态卷积、区间动态卷积，（LConv 表示轻量级的 depth-wise 卷积）

ConvBERT 阅读笔记_sed_03

（上图：）混合注意力模块

本文贡献：率先提出结合卷积来提升BERT效率

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯