文本生成seq2seq框架

原创

wx64898f817b745 2023-06-14 19:24:47 ©著作权

文章标签 机器学习深度学习机器翻译 Machine 建模 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者wx64898f817b745的原创作品，请联系作者获取转载授权，否则将追究法律责任

1. 概述

Seq2Seq是Sequence to Sequence的缩写，作用是将一个序列（sequence）映射成另一个序列（sequence）。文献[1]和文献[2]分别提出利用深度神经网络DNN实现端到端的Seq2Seq学习，将Seq2Seq应用于神经机器翻译（Neural Machine Translation，NMT），唯一不同的是在[1]中使用LSTM作为基础网络，而在[2]中则是使用的是RNN。在Seq2Seq框架中包含了两个模块，一个是encoder模块，另一个是decoder模块。这种同时包含encoder和decoder的结构与AutoEncoder网络相似，不同的是AutoEncoder模型是将输入通过encoder的网络生成中间的结果，并通过decoder对中间的结果还原，AutoEncoder的模型结构如下图所示：

文本生成seq2seq框架_深度学习

而在Seq2Seq中，相同的是两者都包含了Encoder和Decoder，不同的是，在Seq2Seq中，输入与输出并不是相同的，而在AutoEncoder中，输入与输出是相同的。

2. Seq2Seq框架

2.1. Seq2Seq框架的概述

Seq2Seq框架最初是在神经机器翻译（Neural Machine Translation，NMT）领域中提出，用于将一种语言（sequence）翻译成另一种语言（sequence）。由于在Seq2Seq结构中同时包含了encoder和decoder的结构，通常Seq2Seq又被称为Encoder-Decoder结构，Seq2Seq的结构如下图所示：

文本生成seq2seq框架_Machine_02

在Seq2Seq结构中，Encoder和Decoder分别是两个独立的神经网络模型，用于对不同的文本建模，通常对序列化文本建模的方法如LSTM[1]，RNN[2]等。Encoder通过神经网络将原始的输入 $文本生成seq2seq框架_建模_03$ 转换成固定长度的中间向量 $文本生成seq2seq框架_深度学习_04$ ，Decoder将此中间向量作为输入，得到最终的输出 $文本生成seq2seq框架_深度学习_05$ 。

对于机器翻译NMT问题，从概率的角度分析，即对于给定输入 $文本生成seq2seq框架_Machine_06$ ，求目标输出 $文本生成seq2seq框架_深度学习_07$ ，使得条件概率 $文本生成seq2seq框架_建模_08$ 最大，即 $文本生成seq2seq框架_机器翻译_09$ 。

2.1. Encoder

为了便于阐述，这里选取RNN[2]（Recurrent Neural Network）作为Encoder和Decoder，一个典型的RNN结构如下图所示：

文本生成seq2seq框架_建模_10

在RNN中，当前时刻 $文本生成seq2seq框架_Machine_11$ 的隐含层状态 $文本生成seq2seq框架_建模_12$ 是由上一时刻 $文本生成seq2seq框架_Machine_13$ 的隐含层状态 $文本生成seq2seq框架_机器翻译_14$ 和当前时刻的输入 $文本生成seq2seq框架_机器翻译_15$ 共同决定的，可由下式表示：

$文本生成seq2seq框架_机器翻译_16$

假设在Seq2Seq框架中，输入序列为 $文本生成seq2seq框架_Machine_06$ ，其中， $文本生成seq2seq框架_Machine_18$ ，输出序列为 $文本生成seq2seq框架_深度学习_07$ ，其中， $文本生成seq2seq框架_深度学习_20$ 。在编码阶段，RNN通过学习到每个时刻的隐含层状态后，最终得到所有隐含层状态序列：

$文本生成seq2seq框架_Machine_21$

具体过程可由下图表示：

文本生成seq2seq框架_机器翻译_22

通过对这些隐藏层的状态进行汇总，得到上图中固定长度的语义编码向量 $文本生成seq2seq框架_Machine_23$ ，如下式所示：

$文本生成seq2seq框架_Machine_24$

其中 $文本生成seq2seq框架_机器翻译_25$ 表示某种映射函数。通常取最后的隐含层状态 $文本生成seq2seq框架_深度学习_26$ 作为语义编码向量 $文本生成seq2seq框架_Machine_23$ ，即

$文本生成seq2seq框架_建模_28$

2.2. Decoder

在解码阶段，在当前时刻 $文本生成seq2seq框架_Machine_11$ ，根据在编码阶段得到的语义向量 $文本生成seq2seq框架_建模_30$ 和已经生成的输出序列 $文本生成seq2seq框架_深度学习_31$ 来预测当前的输出的 $文本生成seq2seq框架_机器学习_32$ ，其具体过程可由下图表示：

文本生成seq2seq框架_深度学习_33

上述过程可以由下式表示：

$文本生成seq2seq框架_建模_34$

简化可得：

$文本生成seq2seq框架_机器学习_35$

其中 $文本生成seq2seq框架_机器翻译_25$ 表示某种映射函数。在RNN中，上式可简化为：

$文本生成seq2seq框架_机器学习_37$

其中 $文本生成seq2seq框架_Machine_38$ 表示 $文本生成seq2seq框架_Machine_13$ 时刻的输出， $文本生成seq2seq框架_机器学习_40$ 表示Decoder中RNN在 $文本生成seq2seq框架_Machine_13$ 时刻的神经元的隐含层的状态， $文本生成seq2seq框架_建模_30$ 代表的是Encoder网络生成的语义向量。

3. Attention

上述的基于Encoder-Decoder的Seq2Seq框架成功应用在NMT任务中，但是在Encoder和Decoder之间的固定长度的语义向量 $文本生成seq2seq框架_Machine_23$ 限制了Seq2Seq框架的性能。主要表现为固定长度的语义向量 $文本生成seq2seq框架_Machine_23$ 可能无法完整表示整个序列的信息，尤其是对于较长的句子。为了解决长句子表示的问题，Bahdanau等人[3]在2016年在Seq2Seq框架中引入了Attention机制，同时将上述的Encoder阶段中的RNN替换成双向的RNN（BiRNN），即bidirectional recurrent neural network。

3.1. 带有Attention机制的Encoder

在[3]中的Encoder中，采用的是BiRNN，具体过程如下图所示：

文本生成seq2seq框架_深度学习_45

对于BiRNN，其包含了两个阶段的RNN过程，分别为正向RNN和反向RNN，其中，正向RNN生成的隐含层状态序列为：

$文本生成seq2seq框架_机器翻译_46$

反向RNN生成的隐含层状态序列为：

$文本生成seq2seq框架_Machine_47$

对于 $文本生成seq2seq框架_Machine_11$ 时刻的隐含层状态 $文本生成seq2seq框架_建模_12$ 通常是将正向和反向的隐含层状态concat在一起，即：

$文本生成seq2seq框架_建模_50$

3.2. 带有Attention机制的Decoder

与上述的Decoder一致，这里的Decoder也是一个标准的RNN，其过程可由下式表示：

$文本生成seq2seq框架_机器学习_51$

注意到此处与上面不一样的是这里的Encoder网络生成的语义向量不再是固定的，而是变化的。对于第 $文本生成seq2seq框架_机器翻译_52$ 个词的Decoder过程中， $文本生成seq2seq框架_深度学习_53$ 为：

$文本生成seq2seq框架_机器学习_54$

其中， $文本生成seq2seq框架_机器翻译_55$ 为归一化权重，其具体为：

$文本生成seq2seq框架_建模_56$

其中， $文本生成seq2seq框架_Machine_57$ 表示的是第 $文本生成seq2seq框架_机器翻译_52$ 个输出前一个隐藏层状态 $文本生成seq2seq框架_机器学习_59$ 与第 $文本生成seq2seq框架_Machine_60$ 个输入隐层向量 $文本生成seq2seq框架_建模_61$ 之间的相关性，可以通过一个MLP神经网络进行计算，即：

$文本生成seq2seq框架_机器翻译_62$

其具体过程可由下图表示：

文本生成seq2seq框架_Machine_63

这里的Attention机制对所有的编码器隐含层状态 $文本生成seq2seq框架_建模_61$ 都分配了权重，表示的是输出与编码器中每个隐含层状态的相关关系。

4. 总结

与原始的Encoder-Decoder模型相比，加入Attention机制后最大的区别就是原始的Encoder将所有输入信息都编码进一个固定长度的向量之中。而加入Attention后，Encoder将输入编码成一个向量的序列，在Decoder的时候，每一步都会选择性的从向量序列中挑选一个集合进行进一步处理。这样，在产生每一个输出的时候，都能够做到充分利用输入序列携带的信息。

参考文献

[1] Cho K, Merrienboer B V, Gulcehre C, et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J]. Computer Science, 2014.

[2] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]//Advances in neural information processing systems. 2014: 3104-3112.

[3] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

[4] 深度学习中的注意力机制

上一篇：【数据结构与算法面试题】二叉查找树转换成双向链表

下一篇：Hive——巧用transform处理复杂的字符串问题

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯