一文了解attention

转载

AI韬哥 2023-05-18 17:17:15

一文了解attention_线性变换

首先分别对V，K，Q三者分别进行线性变换，即将三者分别输入到三个单层神经网络层，激活函数选择relu，输出新的V，K，Q（三者shape都和原来shape相同，即经过线性变换时输出维度和输入维度相同）；

然后将Q在最后一维上进行切分为num_heads(假设为8)段，然后对切分完的矩阵在axis=0维上进行concat链接起来；对V和K都进行和Q一样的操作；操作后的矩阵记为Q_,K_,V_；

一文了解attention_矩阵相乘_02

Q_矩阵相乘 K_的转置（对最后2维），生成结果记为outputs，然后对outputs 进行scale一次更新为outputs；此次矩阵相乘是计算词与词的相关性，切成多个num_heads进行计算是为了实现对词与词之间深层次相关性进行计算；

一文了解attention_矩阵相乘_03

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客