seq2seq 模型

转载

wx61ee58d59725e 2022-11-08 19:57:39

顾名思义，seq2seq 模型就像一个翻译模型，输入是一个序列（比如一个英文句子），输出也是一个序列（比如该英文句子所对应的法文翻译）。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。

举个例子

在机器翻译：输入（hello） -> 输出（你好）。输入是1个英文单词，输出为2个汉字。在对话机器中：我们提（输入）一个问题，机器会自动生成（输出）回答。这里的输入和输出显然是长度没有确定的序列（sequences）.

要知道，在以往的很多模型中，我们一般都说输入特征矩阵，每个样本对应矩阵中的某一行。就是说，无论是第一个样本还是最后一个样本，他们都有一样的特征维度。

对于一些自然语言处理任务，比如聊天机器人，机器翻译，自动文摘等，传统的方法都是从候选集中选出答案，这对素材的完善程度要求很高，随着最近几年深度学习的兴起，国外学者将深度学习技术应用与自然语言的生成和自然语言的理解的方面的研究，并取得了一些突破性的成果，比如，Sequence-to-sequence (seq2seq) 模型，它是目前自然语言处理技术中非常重要而且非常流行的一个模型，该技术突破了传统的固定大小输入问题框架，开通了将经典深度神经网络模型运用于翻译与职能问答这一类序列型任务的先河，并且被证实在各主流语言之间的相互翻译以及语音助手中人机短问快答的应用中有着非常好的表现。

核心思想

seq2seq模型是在2014年，是由Google Brain团队和Yoshua Bengio 两个团队各自独立的提出来[1] 和 [2]，他们发表的文章主要关注的是机器翻译相关的问题。而seq2seq模型，简单来说就是一个翻译模型，把一个语言序列翻译成另一种语言序列。

最基础的Seq2Seq模型包含了三个部分，即Encoder、Decoder以及连接两者的中间状态向量，Encoder通过学习输入，将其编码成一个固定大小的状态向量S，继而将S传给Decoder，Decoder再通过对状态向量S的学习来进行输出。

seq2seq 模型_自然语言

图中每一个box代表了一个RNN单元，通常是LSTM或者GRU。其实基础的Seq2Seq是有很多弊端的，首先Encoder将输入编码为固定大小状态向量的过程实际上是一个信息“信息有损压缩”的过程，如果信息量越大，那么这个转化向量的过程对信息的损失就越大，同时，随着sequence length的增加，意味着时间维度上的序列很长，RNN模型也会出现梯度弥散。最后，基础的模型连接Encoder和Decoder模块的组件仅仅是一个固定大小的状态向量，这使得Decoder无法直接去关注到输入信息的更多细节。由于基础Seq2Seq的种种缺陷，随后引入了Attention的概念以及Bi-directional encoder layer等，

总结起来说，基础的Seq2Seq主要包括Encoder，Decoder，以及连接两者的固定大小的State Vector。

解码编码过程

整个模型和第一部分介绍的类似，整个模型分为解码和编码的过程，编码的过程结束后悔输出一个语义向量c，之后整个解码过程根据c进行相应的学习输出。

对于整个编码的过程就是上面第二部分介绍的RNN网络学习的的过程，最后输出一个向量c。而对于解码过程，对应的是另外一个RNN网络，其隐藏层状态在t时刻的更新根据如下方程进行更新：

seq2seq 模型_条件概率_02

除了新加了c变量以外，其它和RNN原本的函数关系是一样的。类似的条件概率公式可以写为：

seq2seq 模型_自然语言_03

对于整个输入编码和解码的过程中，文行中使用梯度优化算法以及最大似然条件概率为损失函数去进行模型的训练和优化：

seq2seq 模型_条件概率_04

其中sita为相应模型中的参数，(xn, yn)是相应的输入和输出的序列。

模型扩展

上面介绍的模型是最简单的模型，对于解码和编码的过程使用的是一层的RNN，Google 团队[1]使用的起初也是一层的LSTM模型，后面有一篇文章提出的对Encoder和Decoder部分使用多层的LSTM，其原理和1层的RNN是一样的。如下图所示：

seq2seq 模型_条件概率_05

其实对于这种encoder和decoder的模型，有一个问题是：起始的时间序列被编码转化成语义向量c，之后再被解码，那么一开始的信息经过长时间的从左往右传播已经丢失了很多，而最后编码的信息也是在最后解码，在对输入的序列编码时，使用倒序输入，也就是原始的输入顺序为”A B C”的，那么新的方式编码的输入方式为 “C B A” ，这样A编码成c之后，就会马上进行解码，这样丢失的信息就没有之前那么多，经过这样的处理之后，取得了很大的提升，而且这样处理使得模型能够很好的处理长句子。

上面的方法虽然有一定的改善，但是对于输入词C来讲，信息丢失的依旧很厉害，因此未来解决这一缺点，Bahdanu等人提出在Encoder和Decoder的基础上提出了注意力机制。在上面的模型结构中，每次预测都是从语义向量c中进行信息提取，在含有注意力机制的模型结构中，除了对最后的语义向量进行提取信息，还会对每一时刻的ht输出的结果进行信息的提取，这样Encoder过程中的隐藏状态都被利用上了。如下图所示：

seq2seq 模型_条件概率_06