Linformer 阅读笔记

原创

TechOnly 2022-07-19 16:30:34 博主文章分类：深度学习 ©著作权

©著作权归作者所有：来自51CTO博客作者TechOnly的原创作品，请联系作者获取转载授权，否则将追究法律责任

背景，普通的self-attention
Q 是 n x d K 是 n x d V 是 n x d QK是 n x n 继而 (QK)V 是n x d 计算量最大的在于QK出n x n这步，固算Attention为O(n^2)复杂度

Linformer用两个 n x k 矩阵，将 K 和 V 映射为 k x d 则
Q 是 n x d K 是 k x d V 是 k x d QK是 n x k 继而 (QK)V 还是n x d

k如果足够小的话，证明就是O(n)复杂度算Attention了，
同时，文章从数学上证明了这样做的误差和原来相比很小。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯