Recurrent Neural Networks
RNN可以看做是同一神经网络的多次复制,每个神经网络模块会把消息传递给下一个。
LSTM是一种特别的RNN。
长期依赖问题(Long-Term Dependencies)
相关的信息和预测的词位置之间的间隔非常小时,RNN可以学会使用先前的信息;
当间隔不断增大时,RNN会丧失学习到连接如此远的信息的能力。
LSTM 网络
Long Short Term 网络 可以学习长期依赖信息。
所有RNN都具有一种重复神经网络模块的链式的形式,在标准的RNN中,这个重复的模块只有一个非常简单的结构,例如一个tanh层。
LSTM中的重复模块包含四个交互的层。
LSTM的核心思想
LSTM的关键是细胞状态,水平线在图上方贯穿运行。
门:让信息选择式通过
包含一个sigmoid神经网络层和一个pointwise乘法操作。
Sigmoid层输出0到1之间的数值,描述每个部分有多少量可以通过。
LSTM有3个门,来保护和控制细胞状态。
第一步:决定从细胞状态中丢弃什么信息
通过忘记门层完成,该门会读取 和 ,输出一个在0到1之间的数值给每个在细胞状态
- 举个例子:在语言模型中,细胞状态可能包含当前主语的性别,因此正确的代词可以被选择出来,而当遇到新的主语,我们希望它可以忘记旧的主语。
第二步:决定什么样的新信息被存放在细胞状态中
包含两个部分:
- 输入门层(sigmoid层)决定什么值将要更新
- tanh层创建一个新的候选值向量 ,会被加到状态中
在语言模型的例子中: - 我们需要增加新的主语的性别到细胞状态中,来替代旧的需要忘记的主语。
第三步:确定输出什么值
- 首先运行一个sigmoid层来确定细胞状态的哪个部分将输出出去
- 接着把细胞状态通过tanh进行处理(得到-1到1之间的值)
- 然后两者相乘
双向循环神经网络(BRNN)
BRNN有两个RNN上下叠加在一起组成。
对每个时刻t,输入会同时提供给两个方向相反的RNN,输出由这两个单向RNN共同决定。
BiLSTM
前向的LSTM与后向的LSTM结合成BiLSTM。
参考资料: