长短时记忆网络中的循环权重长短期记忆网络模型

转载

huatechinfo 2024-06-30 12:14:48

前言

之前我们对RNN模型做了总结。由于RNN也有梯度消失的问题，因此很难处理长序列的数据，大牛们对RNN做了改进，得到了RNN的特例LSTM，它可以避免常规RNN的梯度消失，因此在工业界得到了广泛的应用。

RNN原理介绍：追根溯源：循环神经网络

《 Long short-term memory 》 ( 1997 )

作者：Hochreiter S, Schmidhuber J

论文链接：https://people.idsia.ch//~juergen/lstm2003tutorial.pdf

论文内容简介

在LSTM中引入了门机制，主要是为了解决梯度消失问题。引入了输入门，遗忘门和输出门，以决定应保留来自新输入和过去存储器的多少信息。该模型可用以下方程式描述：

长短时记忆网络中的循环权重长短期记忆网络模型_激活函数

长短时记忆网络中的循环权重长短期记忆网络模型_深度学习_02

术语“长期短期记忆”直觉上是提出的模型同时应用了长期和短期记忆向量来编码顺序数据，并使用门控机制来控制信息流。LSTM的性能令人印象深刻，因为它在许多NLP任务中作为骨干模型都获得了最新的成果，尽管该模型是在1997年提出的。

LSTM的整体结构

长短时记忆网络中的循环权重长短期记忆网络模型_深度学习_03

由于RNN梯度消失的问题，大牛们对于序列索引位置t的隐藏结构做了改进，可以说通过一些技巧让隐藏结构复杂了起来，来避免梯度消失的问题，这样的特殊RNN就是我们的LSTM。由于LSTM有很多的变种，这里我们以最常见的LSTM为例讲述。

细胞状态
在每个序列索引位置t时刻向前传播的除了和RNN一样的隐藏状态ℎ𝑡，还多了另一个隐藏状态，如图中上面的长横线。这个隐藏状态我们一般称为细胞状态(Cell State)，记为𝐶𝑡。如下图所示：
遗忘门
遗忘门（forget gate）顾名思义，是控制是否遗忘的，在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。遗忘门子结构如下图所示：

图中输入的有上一序列的隐藏状态ℎ𝑡−1和本序列数据𝑥𝑡，通过一个激活函数，一般是sigmoid，得到遗忘门的输出𝑓𝑡。由于sigmoid的输出𝑓𝑡在[0,1]之间，因此这里的输出𝑓𝑡 代表了遗忘上一层隐藏细胞状态的概率。

【其中𝑊𝑓,𝑈𝑓,𝑏𝑓为线性关系的系数和偏倚，和RNN中的类似。𝜎为sigmoid激活函数】

用数学表达式即为：𝑓𝑡=𝜎(𝑊𝑓ℎ𝑡−1+𝑈𝑓𝑥𝑡+𝑏𝑓)