为什么position embedding就是相加一个随机矩阵

原创

TechOnly 2022-07-19 12:07:58 博主文章分类：深度学习 ©著作权

文章标签 其它 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者TechOnly的原创作品，请联系作者获取转载授权，否则将追究法律责任

position embedding BERT 里的实现：

为什么position embedding就是相加一个随机矩阵_其它

要思考一个问题，什么是position embedding，

就是：

如果每个position的位置用0,1,2,3,4…来表示的话，

怎样像word embedding似的输进模型里呢，

就是两种办法：

one-hot

或者

把position的0,1,2,3,4看成word id一样用embedding_lookup表示成和word embedding同样维数，也就是用一个vector代表0，用一个vector代表1，用一个vector代表2……

position 0,1,2,3,4每个id或index都会转成一个vector，合起来也就是一个随机矩阵！所以看position embedding的另一种实现：

为什么position embedding就是相加一个随机矩阵_其它_02

为什么position embedding就是相加一个随机矩阵_其它_03

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯