pytorch中transformer pytorch中transformerencode

转载

笑傲江湖求败 2023-11-03 12:11:50

文章标签 pytorch中transformer python 人工智能深度学习词向量 文章分类 PyTorch 人工智能

Transformer Overview
不同于seq2seq/RNN这种静态的编码，Transformer的self-attention机制考虑到了句子中词与词之间的语义联系，例如英文中的代词，在不同句子中指代的含义不同。后续谷歌推出的BERT(Bidirectional Encoder Representation for Transformer)模型更是刷新了NLP领域多项任务的记录，具体任务为应用Transformer的结构进行类似完形填空的预测。

Transformer由encoder和decoder构成，只要分别弄清encoder、decoder 以及二者如何相连，就可以完全理解Transform的self-attention机制。

pytorch中transformer pytorch中transformerencode_词向量

Encoder

Encoder由两部分组成，Feed Forward相当于一个全连接层，重点在Self-Attention机制上。
输入(word) 先通过word embedding转化成词向量，再输入进self-attention里。
Self-attention
q,k,v向量表示
对于每个单词，创建一个查询向量、一个键向量和一个值向量，通过将词向量分别乘以三个训练的参数矩阵（右面的三个W矩阵）来创造这些向量。

如何计算self-attention？
通过将该词的query向量与其他单词的key向量相乘来计算分数，分数越高，说明语义关系越紧密。通常score需要再除以
$\sqrt{d_{k}}$
来缩小，避免后续经过softmax出现梯度消失，最后经过softmax将分数转化成概率（0，1）。所得到的各个词的概率值将作为权重与value向量相乘相加，用于表示该词与其他词的联合语义信息。
Multi-head多头机制
对于一个词向量，有多组W矩阵来计算q,k,v向量以及后续的联合向量，每组矩阵称为一个attention head，通过不同向量所处的空间来提高每个词的表征能力。
假设有8个attention head，将得到的8个z向量进行拼接，乘以一个权重矩阵后转换成一个z向量。

位置编码（可有可无）
在输入进encoder之前可以加位置编码
公式如下，不再详述
Encoder整体结构
将以上的模块组合起来，Add & Normalize使用了Resnet的残差结构，保证随着训练层数增加，效果至少不比原来差。再结合残差结构，将上一层的输入和经过全连接后的输出相加。

Decoder

pytorch中transformer pytorch中transformerencode_词向量_10

decoder相对于encoder多了一层Encoder-Decoder Attention。顶部编码器的输出转换为注意力向量K和V的集合。由于每个单词预测出来有先后顺序，decoder的输入是上一次预测的output。这里的self-attention使用掩码机制，仅允许每个单词与其前面的单词进行score的计算，其后面的单词不考虑。经过encoder得到的多组k、v，与经过self-attention处理过后decoder输入的q做attention的计算。