李宏毅自然语言处理——Self Attention

原创

愤怒的可乐 2022-09-23 17:05:37 ©著作权

文章标签 Self attention 窗口大小点乘点积 文章分类 NLP 人工智能

©著作权归作者所有：来自51CTO博客作者愤怒的可乐的原创作品，请联系作者获取转载授权，否则将追究法律责任

引言

这是李宏毅老师讲的机器学习视频中与自然语言处理有关的，本文主要关注Self-attention。

处理序列的模型

我们已经知道如何处理输入是一个向量的问题。假设我们遇到了更加复杂的问题。比如，输入是一系列向量。

李宏毅自然语言处理——Self Attention_Self attention

并且输入的这一系列向量的长度不是固定的。

比如，在文字处理的场景中。输入是一个句子，将每个句子的词汇描述成一个向量，这样模型的输入就是一排向量。

李宏毅自然语言处理——Self Attention_点乘_02

如何把词汇表示成向量呢，我们知道有one-hot编码。

李宏毅自然语言处理——Self Attention_点乘_03

但是这种表示方法不能表示语义信息，并且维度还非常大。另一种表示方法是词嵌入向量。

李宏毅自然语言处理——Self Attention_点乘_04

还有图结构也可以是一系列向量。

李宏毅自然语言处理——Self Attention_Self attention_05

那这些模型的输出是什么？

有三种类型：

每个输入的向量都有一个标签，比如词性标注任务。

李宏毅自然语言处理——Self Attention_窗口大小_06

第二种类型是整个序列的输出就是一标签。

比如情感分类任务、或者是输入一段语言，识别说话者是谁等。

李宏毅自然语言处理——Self Attention_点积_07

最后一种类型就是，我们也不知道有多少个输出，由机器自己决定要输出多少。比如机器翻译任务。

我们今天关注第一种类型。这种任务又叫序列标注(Sequence Labeling)。

李宏毅自然语言处理——Self Attention_窗口大小_08

我们不能直接用全连接网络(FC)来做，因为全连接网络同样的输入会得到同样的输出。而我们上面的例子中“I saw a saw”，第一个“saw”是动词，第二个“saw”是名词。

如果能考虑到上下文就好了。这是有可能的，可以设定一个窗口大小，把窗口大小内的输入都串起来，一起丢到FC中。但是窗口大小始终是有限的，如何考虑整个句子呢，难道设定一个巨大的窗口包含整个语句？

有没有更好的考虑整个序列的模型呢？有，那便是Self-atention!

Self-attention

李宏毅自然语言处理——Self Attention_Self attention_09

Self-attention可以接收一整个序列的输入，序列中有多少个输入，它就可以得到多少个输出。

比如上面输入4个向量到Self-attention中，我们就得到了4个输出向量。这4个输出向量特别之处在于，它们都是考虑了整个序列得到的结果。

在把这些特别的向量丢给FC之后，再来决定要输出什么样的东西。

李宏毅自然语言处理——Self Attention_Self attention_10

Self-attention的输出还可以叠加。比如，我们得到考虑整个序列的向量后，喂给FC，得到FC的输出后，再过一次Self-attention，重新考虑FC的所有输出，再丢给另一个FC之后，得到最终的输出，如下图：

李宏毅自然语言处理——Self Attention_点积_11

所以可以把FC和Self-attention交替使用，用Self-attention处理整个序列的信息，FC专注于处理某个位置的信息。

Attention is all you need.

Self-attention的原理

那Self-attention是怎么运作的呢？

李宏毅自然语言处理——Self Attention_点积_12

它的输入就是向量序列，这些向量可能是整个网络的输入，也可能是某个隐藏层的输出。

再强调一次，每个Self-attention的输出，都是考虑了所有的输入向量才生成出来的。

下面我们来看一下是如何生成这些向量的。

李宏毅自然语言处理——Self Attention_Self attention_13

我们重点来看一下是如何产生 $李宏毅自然语言处理——Self Attention_窗口大小_14$ 这个向量的，其他的 $李宏毅自然语言处理——Self Attention_窗口大小_15$ 同理。

① 我们想要根据 $李宏毅自然语言处理——Self Attention_点乘_16$ 找出序列中其他与 $李宏毅自然语言处理——Self Attention_点乘_16$ 有关的向量。每个向量与 $李宏毅自然语言处理——Self Attention_点乘_16$ 关联程度用一个数值 $李宏毅自然语言处理——Self Attention_窗口大小_19$ 来表示。第一步要考虑的问题就是，Self-attention模型如何决定两个向量的关联性呢。

那么就需要一个计算关联性(注意力)的模组。

李宏毅自然语言处理——Self Attention_点乘_20

它拿两个向量作为输入，直接输出它们的相关性 $李宏毅自然语言处理——Self Attention_窗口大小_19$ 数值。如何计算这个数值，就有各种各样的做法。

常用的做法有使用点乘(Dot product)的方式。

李宏毅自然语言处理——Self Attention_窗口大小_22

点乘的方式做法如下：

把输入的向量分别乘上两个不同的权重矩阵，分别得到两个向量，记为 $李宏毅自然语言处理——Self Attention_点积_23$ 和 $李宏毅自然语言处理——Self Attention_点乘_24$ 。
然后让 $李宏毅自然语言处理——Self Attention_点乘_25$ 就可以得到一个标量，这个标量就作为 $李宏毅自然语言处理——Self Attention_窗口大小_26$ 数值。

还有一种叫作Additive的方式：

李宏毅自然语言处理——Self Attention_窗口大小_27

也是乘上两个权重矩阵，得到 $李宏毅自然语言处理——Self Attention_点积_28$ 之后，再拼接起来，然后输入到一个激活函数中，激活函数输出的结果通过矩阵进行线性变换得到 $李宏毅自然语言处理——Self Attention_窗口大小_19$ 。

我们下面的讨论基于点乘的方式。

② 计算 $李宏毅自然语言处理——Self Attention_点乘_16$ 和其他向量的关联性。

李宏毅自然语言处理——Self Attention_点积_31

怎么做呢？先用 $李宏毅自然语言处理——Self Attention_点乘_16$ 乘上矩阵 $李宏毅自然语言处理——Self Attention_窗口大小_33$ 得到 $李宏毅自然语言处理——Self Attention_点乘_34$ ，这个 $李宏毅自然语言处理——Self Attention_点乘_34$ 被称为为query。

李宏毅自然语言处理——Self Attention_点乘_36

然后 $李宏毅自然语言处理——Self Attention_Self attention_37$ 乘上 $李宏毅自然语言处理——Self Attention_Self attention_38$ 分别得到 $李宏毅自然语言处理——Self Attention_点积_39$ ，这些 $李宏毅自然语言处理——Self Attention_点积_39$ 被称为key。

李宏毅自然语言处理——Self Attention_点乘_41

接下来用 $李宏毅自然语言处理——Self Attention_点乘_34$ 与 $李宏毅自然语言处理——Self Attention_点积_43$ 做点积得到 $李宏毅自然语言处理——Self Attention_窗口大小_44$ 值，表示 $李宏毅自然语言处理——Self Attention_点乘_16$ 和 $李宏毅自然语言处理——Self Attention_Self attention_46$ 之间的关联性， $李宏毅自然语言处理——Self Attention_窗口大小_44$ 这种记法说明query是 $李宏毅自然语言处理——Self Attention_点乘_16$ 提供的，key是 $李宏毅自然语言处理——Self Attention_Self attention_46$ 提供的。这个 $李宏毅自然语言处理——Self Attention_窗口大小_19$ 值还被称为attention score。计算出 $李宏毅自然语言处理——Self Attention_点乘_16$ 与 $李宏毅自然语言处理——Self Attention_Self attention_46$ 的关联性后，还要跟 $李宏毅自然语言处理——Self Attention_点积_53$ 计算一下。

李宏毅自然语言处理——Self Attention_窗口大小_54

计算 $李宏毅自然语言处理——Self Attention_Self attention_55$ 的时候也是乘以 $李宏毅自然语言处理——Self Attention_Self attention_38$ 矩阵得到的，然后再与 $李宏毅自然语言处理——Self Attention_点乘_34$ 做点积得到 $李宏毅自然语言处理——Self Attention_Self attention_58$ 。

李宏毅自然语言处理——Self Attention_点积_59

实际上，我们还要利用同样的公式计算 $李宏毅自然语言处理——Self Attention_点乘_16$ 自己与自己的关联性 $李宏毅自然语言处理——Self Attention_Self attention_61$ 。

③ 计算Softmax

李宏毅自然语言处理——Self Attention_点乘_62

我们还要对这些attention score做一个Softmax，得到 $李宏毅自然语言处理——Self Attention_窗口大小_63$ ，相当于与 $李宏毅自然语言处理——Self Attention_点乘_16$ 与各个向量的相关性系数，我们就可以知道哪些向量与 $李宏毅自然语言处理——Self Attention_点乘_16$ 相关性比较大。

④ 计算最终的 $李宏毅自然语言处理——Self Attention_窗口大小_14$

在计算 $李宏毅自然语言处理——Self Attention_窗口大小_14$ 之前呢，还有一个向量要计算。

李宏毅自然语言处理——Self Attention_窗口大小_68

这个向量就是 $李宏毅自然语言处理——Self Attention_点乘_69$ 向量，把 $李宏毅自然语言处理——Self Attention_点乘_16$ 到 $李宏毅自然语言处理——Self Attention_窗口大小_71$ 都乘上 $李宏毅自然语言处理——Self Attention_点积_72$ ，得到 $李宏毅自然语言处理——Self Attention_点乘_73$ 到 $李宏毅自然语言处理——Self Attention_点积_74$ 。这个 $李宏毅自然语言处理——Self Attention_点乘_69$ 可以看成是向量 $李宏毅自然语言处理——Self Attention_点乘_76$ 所携带的信息编码。

然后与Softmax之后的 $李宏毅自然语言处理——Self Attention_窗口大小_77$ 做一个加权求和就得到了 $李宏毅自然语言处理——Self Attention_窗口大小_14$ ：

李宏毅自然语言处理——Self Attention_窗口大小_79

假设 $李宏毅自然语言处理——Self Attention_Self attention_46$ 与 $李宏毅自然语言处理——Self Attention_点乘_16$ 关联性较大，那么得到的权重系数就很大，在计算 $李宏毅自然语言处理——Self Attention_窗口大小_14$ 时，就会有很大程度的信息来自于 $李宏毅自然语言处理——Self Attention_Self attention_83$ ,也就是来自于 $李宏毅自然语言处理——Self Attention_Self attention_46$ 。

下面得到 $李宏毅自然语言处理——Self Attention_窗口大小_85$ 是一样的，虽然这里先探讨 $李宏毅自然语言处理——Self Attention_窗口大小_14$ 的产生，其实 $李宏毅自然语言处理——Self Attention_点积_87$ 是可以同时产生的。

李宏毅自然语言处理——Self Attention_Self attention_88

不过计算 $李宏毅自然语言处理——Self Attention_Self attention_89$ 时，是以 $李宏毅自然语言处理——Self Attention_Self attention_46$ 计算的 $李宏毅自然语言处理——Self Attention_点乘_91$ 作为query的。同理以 $李宏毅自然语言处理——Self Attention_窗口大小_92$ 得到 $李宏毅自然语言处理——Self Attention_点乘_93$ 就可以计算 $李宏毅自然语言处理——Self Attention_Self attention_94$ 。

刚才我们说是可以同时计算的，是怎么回事呢。其实计算 $李宏毅自然语言处理——Self Attention_窗口大小_95$ 无非就是不同的向量与矩阵相乘得到的，如果把这些向量写在一起，写成一个矩阵，不就可以一次得到了吗。

李宏毅自然语言处理——Self Attention_Self attention_96

把 $李宏毅自然语言处理——Self Attention_点乘_97$ 拼成一个矩阵 $李宏毅自然语言处理——Self Attention_窗口大小_98$ ，然后让矩阵 $李宏毅自然语言处理——Self Attention_窗口大小_33$ 乘以它得到矩阵 $李宏毅自然语言处理——Self Attention_点乘_100$ ，矩阵 $李宏毅自然语言处理——Self Attention_点乘_100$ 可以分解为 $李宏毅自然语言处理——Self Attention_点乘_102$ 。

剩下的 $李宏毅自然语言处理——Self Attention_窗口大小_103$ 也是同样的道理。

接下来，计算attention score也可以写成矩阵运算。

李宏毅自然语言处理——Self Attention_Self attention_104

我们先看 $李宏毅自然语言处理——Self Attention_点乘_34$ ，它计算 $李宏毅自然语言处理——Self Attention_Self attention_106$ 可以写成矩阵 $李宏毅自然语言处理——Self Attention_Self attention_107$ 与向量 $李宏毅自然语言处理——Self Attention_点乘_34$ 的乘积。

李宏毅自然语言处理——Self Attention_Self attention_109

同理不难理解 $李宏毅自然语言处理——Self Attention_点积_110$ 也可以写成 $李宏毅自然语言处理——Self Attention_点乘_111$ 。

这样把 $李宏毅自然语言处理——Self Attention_点乘_102$ 拼成矩阵 $李宏毅自然语言处理——Self Attention_点乘_100$ ，然后通过 $李宏毅自然语言处理——Self Attention_点积_114$ 得到 $李宏毅自然语言处理——Self Attention_点乘_115$ ， $李宏毅自然语言处理——Self Attention_点乘_115$ 经过Softmax之后就得到了 $李宏毅自然语言处理——Self Attention_Self attention_117$ 矩阵， $李宏毅自然语言处理——Self Attention_Self attention_117$ 矩阵中每列之和为 $李宏毅自然语言处理——Self Attention_Self attention_119$ ， $李宏毅自然语言处理——Self Attention_Self attention_117$ 也被成为Attenion Matrix。

李宏毅自然语言处理——Self Attention_窗口大小_121

接下来看 $李宏毅自然语言处理——Self Attention_窗口大小_14$

李宏毅自然语言处理——Self Attention_Self attention_123

相当于是把 $李宏毅自然语言处理——Self Attention_点积_124$ 组成的矩阵 $李宏毅自然语言处理——Self Attention_点积_125$ 乘以 $李宏毅自然语言处理——Self Attention_Self attention_117$ 的第一列，就得到了 $李宏毅自然语言处理——Self Attention_窗口大小_14$ 。

李宏毅自然语言处理——Self Attention_窗口大小_128

那么用矩阵 $李宏毅自然语言处理——Self Attention_点积_125$ 乘以 $李宏毅自然语言处理——Self Attention_Self attention_117$ 就可以得到 $李宏毅自然语言处理——Self Attention_点积_87$ 得到的矩阵 $李宏毅自然语言处理——Self Attention_点乘_132$ 。

李宏毅自然语言处理——Self Attention_点乘_133

总结下来，这一连串的操作，其实就是矩阵的乘法而已。我们用一个图来总结一下。

李宏毅自然语言处理——Self Attention_Self attention_134

$李宏毅自然语言处理——Self Attention_窗口大小_98$ 是Self-attention模型的输入组成的矩阵， $李宏毅自然语言处理——Self Attention_点积_136$ 是三个可以学习的权重矩阵；

用这三个矩阵乘 $李宏毅自然语言处理——Self Attention_窗口大小_98$ 分别得到 $李宏毅自然语言处理——Self Attention_窗口大小_138$ 矩阵；

然后用 $李宏毅自然语言处理——Self Attention_Self attention_107$ 矩阵做个转置乘上 $李宏毅自然语言处理——Self Attention_点乘_100$ 就得到了 $李宏毅自然语言处理——Self Attention_点乘_115$ ，经过Softmax得到 $李宏毅自然语言处理——Self Attention_Self attention_117$ ；

用 $李宏毅自然语言处理——Self Attention_点积_125$ 乘上 $李宏毅自然语言处理——Self Attention_Self attention_117$ 得到最终的输出 $李宏毅自然语言处理——Self Attention_点乘_132$ 。

其中需要学习的参数，就是 $李宏毅自然语言处理——Self Attention_点积_136$ 。

Multi-head Self-attention

Multi-head Self-attention是Self-attention的一个升级版本，Multi-head指的是计算出多个 $李宏毅自然语言处理——Self Attention_窗口大小_138$ 矩阵。

为什么这样有意义呢? Self-attention是用query去找相关性，但是相关性可能有很多个种类，这时得到多个 $李宏毅自然语言处理——Self Attention_窗口大小_138$ 就分别代表不同种类。多出来的 $李宏毅自然语言处理——Self Attention_窗口大小_138$ 矩阵是怎么计算的呢。

李宏毅自然语言处理——Self Attention_Self attention_150

以2 head为例，我们还是用 $李宏毅自然语言处理——Self Attention_点乘_151$ 来得到 $李宏毅自然语言处理——Self Attention_点积_152$ ，然而，此时用这个 $李宏毅自然语言处理——Self Attention_点积_152$ 乘以一个不同的矩阵，得到 $李宏毅自然语言处理——Self Attention_Self attention_154$ ；

同理用 $李宏毅自然语言处理——Self Attention_点乘_155$ 乘上不同的矩阵分别得到 $李宏毅自然语言处理——Self Attention_点积_156$ 和 $李宏毅自然语言处理——Self Attention_点乘_157$ 。

然后计算 $李宏毅自然语言处理——Self Attention_窗口大小_19$ 和 $李宏毅自然语言处理——Self Attention_点积_159$ 的时候，把 $李宏毅自然语言处理——Self Attention_点积_160$ 这些第二个上标为 $李宏毅自然语言处理——Self Attention_Self attention_119$ 的进行计算，最后得到 $李宏毅自然语言处理——Self Attention_窗口大小_162$ ；上标为 $李宏毅自然语言处理——Self Attention_窗口大小_163$ 的进行计算，得到 $李宏毅自然语言处理——Self Attention_Self attention_164$

李宏毅自然语言处理——Self Attention_点乘_165

接下来也可以拼接 $李宏毅自然语言处理——Self Attention_点积_166$ ，然后乘以一个矩阵 $李宏毅自然语言处理——Self Attention_窗口大小_167$ 得到 $李宏毅自然语言处理——Self Attention_Self attention_168$ 。

Positional Encoding

现在整个过程看下来，Self-attention少了一个重要的信息，即位置信息。

我们上面在进行矩阵运算的时候，对于不同的位置的输入，都是同等对待的。没有说像RNN那样后面的输入考虑了前面输入的信息。也没有考虑输入的距离远近。

本小节介绍的Positional Encoding就是用于解决这个问题的。具体就是为每个位置的输入设置一个独立的位置向量 $李宏毅自然语言处理——Self Attention_点乘_169$ 。

李宏毅自然语言处理——Self Attention_窗口大小_170

在Attention is all you need中用的 $李宏毅自然语言处理——Self Attention_点乘_169$ 是下图中的每一列：

李宏毅自然语言处理——Self Attention_Self attention_172

即每一列代表一个位置向量 $李宏毅自然语言处理——Self Attention_点乘_169$ ，这些位置向量 $李宏毅自然语言处理——Self Attention_点乘_169$ 是通过sin和cos函数形成一个公式生成的。当然还有其他的生成方法，甚至可以当成一个可以学习的参数。

李宏毅自然语言处理——Self Attention_Self attention_175

Self-attention的应用

比较出名的两个就是Transformer和BERT。

李宏毅自然语言处理——Self Attention_点积_176

这两个家伙常年活跃在自然语言处理领域。

当然还可以应用在语音和图像上。

李宏毅自然语言处理——Self Attention_点乘_177

李宏毅自然语言处理——Self Attention_点积_178

对于图像来说，把每个位置的输入看成一个3维(rgb)的向量。

Self-attention vs CNN

李宏毅自然语言处理——Self Attention_窗口大小_179

CNN在做卷积的时候，考虑的是感受野之内的信息，而Selt-attention考虑的是整个输入的信息。

因此CNN可以看成是一个简化版的Self-attention。

这样好像是让Self-attention自己去决定感受野的形状是什么样的。

李宏毅自然语言处理——Self Attention_窗口大小_180

Self-attention只要设置合适的参数，就可以做到CNN能做到的事情。

李宏毅自然语言处理——Self Attention_窗口大小_181

Self-attention在数据量大时表现更好，而CNN在小数据量时表现更好。这样不难理解，显然Self-attention比CNN更复杂，需要的数据量显然更多。

Self-attention vs RNN

Self-attention和RNN都可以处理序列数据，RNN得到结果时必须按照时间步的顺序(正序或逆序)来生成，利用双向RNN的设计可以考虑整个序列信息。

李宏毅自然语言处理——Self Attention_点乘_182

而Self-attention每个输出都也是考虑了整个序列信息。虽然双向RNN也考虑了整个序列信息，但是如果将它俩进行对比，还是可以发现一些不同。

李宏毅自然语言处理——Self Attention_Self attention_183

比如考虑上面红框框出来的(深蓝色)输入，RNN要考虑这个输入，必须保存到内存中，然后一步一步传递到最后，得到红框框出来的黄色输出。所以是很难考虑到比较远的输入。

而Self-attention就没有这个问题，只要它们的query和key比较相关，得到的相关性系数较大，不管多远，都能轻易地抽取出信息。

还有一个重要的不同就是并行化，这影响到训练效率。RNN是不能并行化的，而Self-attention可以。这样Self-attention完胜RNN。

想要了解更多Self-attention和RNN的关系，可以参考这篇论文☞Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

Self-attentioni for Graph

李宏毅自然语言处理——Self Attention_点乘_184

Self-attention还可以用在图结构上，图中每个节点看成一个输入，图结构中边的概念，可以看成有关联的向量。可以形成一个稀疏矩阵，其中白色空白区域代表无关联性。

比如上图节点1和5，6，8相连，所以我们只需要计算它们之间的attenion score。

Self-attention的变体

Self-attention有很多种变体，Self-attention最早用在Transformer上面，后来就出来了各种“xxformer”。

李宏毅自然语言处理——Self Attention_点乘_185

Long Range Arena: A Benchmark for Efficient Transformers
Efficient Transformers: A Survey

上一篇：RabbitMQ学习笔记

下一篇：自然语言理解——词向量(一)

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯