基于Attention的Seq2Seq

原创

安静到无声 2023-04-10 15:52:02 ©著作权

文章标签 1024程序员节人工智能深度学习自然语言处理权重 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者安静到无声的原创作品，请联系作者获取转载授权，否则将追究法律责任

基于Attention的Seq2Seq_人工智能

前言

基于Attention的Seq2Seq_自然语言处理_02

昨天有位大神在CSDN上发表了一篇题为BERT通俗笔记：从Word2Vec/Transformer逐步理解到BERT

的文章，仔细阅读前两章后，可谓是受益匪浅。但是在研读时，由于自身对NLP相关知识有所缺乏，使我对一些基础概念不甚理解（尽管作者的描述已经特别简单易懂~）。其中Attention便是其中之一，在此之前，我一直以为在Seq2Seq之后便是Self-attention（相关介绍见自注意机制(Self-attention)）这一伟大的发明。查阅相关文献后才了解到，由于Seq2Seq对于长句子具有遗忘性，在2015年ICLR会议上Bahdanau，Cho等人提出了Attention机制以解决这个问题，而Self-attention是在2016年提出的。本文主要结合B站UP主ShusenWang的所讲的关于RNN模型与NLP应用的相关内容和自己的理解构成。

1. 回顾Seq2Seq

Seq2Seq是基于RNN和LSTM的Encoder-Decoder结构的网络，它在很多领域都取得了巨大的成功，比如机器翻译，语音识别，文本摘要等。它输入是一个序列，其输出也是一个序列。在Encoder中，将序列转换成一个固定长度的向量，然后通过Decoder将该向量转换成我们想要的序列输出出来，基本结构如下：

基于Attention的Seq2Seq_自然语言处理_03

但是这种模型在解码时只有最后一个状态向量传递给解码器，即Encoder的最后一个状态，如下图所示，由于其余位置的状态并没有直接参与后续的解码任务，这冥冥之中导致了一些信息的丢失，特别是在处理长对话时，仅仅依靠最后一个状态难以记住语句所有的信息。

基于Attention的Seq2Seq_人工智能_04

下图是单词量和BLEU（双语互译质量评估辅助工具）的关系（挖坑基于Attention的Seq2Seq_自然语言处理_05 ：关于BLEU这些评价指标，后面我将通过一个文章进行总结）。从图可以看出，当单词量大于20后，不带有Attention的Seq2Seq模型的BLEU值出现了明显下降；相反带有Attention的Seq2Seq模型的BLEU值并没有下降，这说明了Attention记住的关键了信息，并实现了较好的状态解码。

基于Attention的Seq2Seq_权重_06

2. 基于Attention的Seq2Seq

2.1 相关性计算

本小节也采用和视频RNN模型与NLP应用一致的描述方式，对Seq2Seq model for attention做出解释。在上一小节已经说过，Seq2Seq的Eecoder输出的是最后一个状态 $基于Attention的Seq2Seq_深度学习_07$ ，这也是Decoder的第一个输入，我们利用 $基于Attention的Seq2Seq_深度学习_08$ 来表示。而基于attention的方法最大的一个特点就是，在进行Decoder时，不仅考虑的Eecoder最后一个状态 $基于Attention的Seq2Seq_深度学习_07$ ，也考虑之前每个的输入单词产生的状态，即 $基于Attention的Seq2Seq_深度学习_10$ 、 $基于Attention的Seq2Seq_1024程序员节_11$ 、 $基于Attention的Seq2Seq_自然语言处理_12$ 。。。等，如下图所示。原始作者引入了一个权重参数 $基于Attention的Seq2Seq_自然语言处理_13$ 来表示和Decoder输入状态的相关性。我们将Eecoder的任意输出状态 $基于Attention的Seq2Seq_人工智能_14$ 与Decoder的第一个输入状态 $基于Attention的Seq2Seq_人工智能_15$ 的相关性记为： $基于Attention的Seq2Seq_权重_16$

基于Attention的Seq2Seq_人工智能_17

接下来就是 $基于Attention的Seq2Seq_自然语言处理_13$ 的学习，这里提供了两种方法，第一个是原始论文的计算方法，第二个是一种更为流行的计算方法，也广泛应用于Transformer模型当中。

第一种包含两个可学习的参数 $基于Attention的Seq2Seq_自然语言处理_19$ 和 $基于Attention的Seq2Seq_权重_20$ ，主要做法如下所示：
第二种做法主要过程如下，也有两个需要学习参数矩阵 $基于Attention的Seq2Seq_自然语言处理_21$ 和 $基于Attention的Seq2Seq_人工智能_22$ 。

至此，我们可以得到m个权重 $基于Attention的Seq2Seq_1024程序员节_23$ ，它对应了m个Eecoder的输出状态 $基于Attention的Seq2Seq_1024程序员节_24$ 、 $基于Attention的Seq2Seq_深度学习_25$ 、 $基于Attention的Seq2Seq_人工智能_26$ 。。。 $基于Attention的Seq2Seq_权重_27$ ，我们将这m个权重 $基于Attention的Seq2Seq_1024程序员节_23$ 与m个 $基于Attention的Seq2Seq_人工智能_29$ 进行加权求和，得到上下文向量（context vetor） $基于Attention的Seq2Seq_权重_30$ 。其实这种操作是不难理解的，简单讲，每一个 $基于Attention的Seq2Seq_1024程序员节_23$ 都表示与 $基于Attention的Seq2Seq_深度学习_32$ 的相关性，较大的值表明与对应的状态 $基于Attention的Seq2Seq_1024程序员节_33$ 和 $基于Attention的Seq2Seq_深度学习_32$ 相关性较大，反之较小，我们求他们的加权平均和，自然使得重要的地方更突出，不重要的地方就不突出。
$基于Attention的Seq2Seq_权重_35$

2.2 Eecoder过程

现在开始介绍Eecoder的过程，这里我们将按照第一次输入 $基于Attention的Seq2Seq_权重_36$ ，第二次输入 $基于Attention的Seq2Seq_1024程序员节_37$ ，。。。，分步进行介绍~。首先是第一步。

One step。在原始的Seq2Seq中，我们的输入有 $基于Attention的Seq2Seq_权重_38$ 和 $基于Attention的Seq2Seq_人工智能_39$ ，如下图所示，

基于Attention的Seq2Seq_1024程序员节_40

而基于Attention的Seq2Seq的Eecoder操作，是在此基础上级联了之前计算得到上下文向量（context vetor） $基于Attention的Seq2Seq_人工智能_41$ ，经过运算即可得到第一步的输出 $基于Attention的Seq2Seq_1024程序员节_42$ 。

基于Attention的Seq2Seq_自然语言处理_43

2.Two step。与之前的操作类似，我们需要计算 $基于Attention的Seq2Seq_1024程序员节_42$ （第一步的输出），与decoder输出的m个状态的相关性，具体方法与上文描述一致，进而可获得上下文向量（context vetor） $基于Attention的Seq2Seq_深度学习_45$ ，最后将 $基于Attention的Seq2Seq_1024程序员节_37$ 、 $基于Attention的Seq2Seq_1024程序员节_42$ 和 $基于Attention的Seq2Seq_深度学习_45$ 级联送入计算单元获得 $基于Attention的Seq2Seq_深度学习_49$ ，方法见下图：

基于Attention的Seq2Seq_人工智能_50

3. Three step。这一步和上文完全相同不在赘述。最终我们得到一系列输出 $基于Attention的Seq2Seq_深度学习_45$ 、 $基于Attention的Seq2Seq_深度学习_52$ … $基于Attention的Seq2Seq_深度学习_53$ ：

基于Attention的Seq2Seq_深度学习_54

2.3 复杂度分析和权重可视化

对于一个 $基于Attention的Seq2Seq_1024程序员节_55$ ，我们需要计算m个 $基于Attention的Seq2Seq_自然语言处理_13$ ，如果解码有 $基于Attention的Seq2Seq_权重_57$ 个状态，则一个用 $基于Attention的Seq2Seq_自然语言处理_58$ 个权重 $基于Attention的Seq2Seq_自然语言处理_13$ ，所以该算法的时间复杂度是 $基于Attention的Seq2Seq_自然语言处理_58$ ，这个计算压力也是巨大的。