一、Transformer的优势(相比于LSTM和GRU):
1、Transformer能够利用分布式GPU进行并行训练,提升模型训练效率。
2、在分析预测更长的文本时,捕捉间隔较长的语义关联效果更好。
二、Transformer模型的作用:
基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务,如机器翻译、文本生成等,同时又可以构建预训练语言模型,用于不同任务的迁移学习。
三、Transformer的总体架构:
总体的架构图分为四部分:
1、输入部分:
(1)包含两部分:
1、源文本嵌入层及其位置编码器。
2、目标文本嵌入层及其位置编码器。
(2)文本嵌入层的作用:
无论是源文本嵌入还是目标文本的嵌入,都是为了将文本中词汇的数字转变为向量表示,希望在这样的高维空间捕捉词汇间的关系。
2、输出部分:
(1)包含两部分:
1、线性层(得到outputsize)。
2、softmax层(提取出来概率最大的那个值)。
3、编码器:
(1)包含四个部分:
1、由N个编码器层堆叠而成。
2、每个编码器层由两个子层连接结构组成。
3、第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接。
4、第二个子层连接结构包含一个前馈全连接子层和规范化层以及一个残差链接。
4、解码器:
(1)包含五部分:
(1)由N个解码器堆叠而成。
(2)每个解码器由三个子层连接结构组成。
(3)第一个子层连接结构包含一个多头自注意力子层和规范化层以及一个残差链接。
(4)第二个子层连接结构包含一个多头注意力子层和规范化层以及一个残差连接。
(5)第三个子层连接结构包含一个前馈全连接子层和规范化层以及一个残差连接。