注意力机制（2）

转载

emanlee 2023-10-08 10:12:20

文章标签 编码器抽象层次权重 文章分类 文心一言 AIGC

下图来自：https://baijiahao.baidu.com/s?id=1683481435616221574&wfr=spider&for=pc

注意力机制（2）_抽象层次

注意力机制（2）_权重_02

该任务是实现图文转换。

注意力机制（2）_权重_03

这里编码器是VGG，解码器是LSTM。LTSM输入是不同时刻的图片的关注点信息，然后生成当前时刻的单词。

注意力机制（2）_权重_04

注意力机制

注意力机制是一种在编码器-解码器结构中使用到的机制, 现在已经在多种任务中使用:

机器翻译(Neural Machine Translation, NMT)
图像描述(Image Captioning (translating an image to a sentence))
文本摘要(Summarization(translating to a more compact language))

而且也不再局限于编码器-解码器结构, 多种变体的注意力结构, 应用在各种任务中.

总的来说, 注意力机制应用在:

允许解码器在序列中的多个向量中, 关注它所需要的信息, 是传统的注意力机制的用法. 由于使用了编码器多步输出, 而不是使用对应步的单一定长向量, 因此保留了更多的信息.
作用于编码器, 解决表征问题(例如Encoding Vector再作为其他模型的输入), 一般使用自注意力(self-attention)

1. 编码器-解码器注意力机制

1.1 编码器-解码器结构

注意力机制（2）_抽象层次_05

如上图, 编码器将输入嵌入为一个向量, 解码器根据这个向量得到输出. 由于这种结构一般的应用场景(机器翻译等), 其输入输出都是序列, 因此也被称为序列到序列的模型Seq2Seq.

对于编码器-解码器结构的训练, 由于这种结构处处可微, 因此模型的参数可以通过训练数据和最大似然估计得到最优解, 最大化对数似然函数以获得最优模型的参数, &amp;amp;amp;amp;amp;lt;br /&amp;amp;amp;amp;amp;gt;

全局注意力

global attention 在计算context vector Ct 的时候会考虑encoder所产生的全部hidden state。

注意力机制（2）_编码器_06

层级注意力

对于一个NLP问题, 在整个架构中, 使用了两个自注意力机制: 词层面和句子层面. 符

注意力机制（2）_权重_07

self attention

这里的self attention 指的是用到自身的信息来计算attention。传统的attention都是考虑用外部信息来计算attention。

注意力机制（2）_编码器_08

注意力机制（2）_抽象层次_09

采用multi-head attention为的就是让不同head学习到不同的子空间语义。显然实验也证实这种形式的结果较好。

注意力机制（2）_抽象层次_10

在self attention中其实在做的当前文本句中单词依赖关系分数的计算。比如“Think Machines”两个单词

注意力机制（2）_抽象层次_11

优点：

由于self attention 是对整个文本句求attention的，所以他能抓取到当前单词和该文本句中所有单词的依赖关系强度。这方面的能力显然比RNN的获取长依赖的能力强大的多。
此时不在用RNN的这种串行模式，即每一步计算依赖于上一步的计算结果。因此可以像CNN一样并行处理，而CNN只能捕获局部信息，通过层叠获取全局联系增强视野

缺点：很显然，既是并行又能全局，但他不能捕捉语序顺序。这是很糟糕的，有点像词袋模型。因为相同单词不同词序的含义会有很大差别。为了克服这个问题，作者引入了Position embedding。

Transform是一大法宝，影响深远。

注意力机制（2）_编码器_12

从上图粗看，Transform仍延续着一个Encoder一个Decoder的形式。重要部件：

Positional embedding:正如上面所说，self attention缺乏位置信息，这是不合理的。为了引入位置信息，这里用了一个部件position embedding。

这里考虑每个token的position embedding的向量维度也是d维的，与input embedding的输出一样，然后将input embedding和position embedding 加起来组成最终的embedding输入到上面的encoder/decoder中去。这里的position embedding计算公式如下：

注意力机制（2）_抽象层次_13