Recurrent Neural Networks

RNN可以看做是同一神经网络的多次复制,每个神经网络模块会把消息传递给下一个。

istm神经网络 lstm神经网络模型_rnn


LSTM是一种特别的RNN。

长期依赖问题(Long-Term Dependencies)

相关的信息和预测的词位置之间的间隔非常小时,RNN可以学会使用先前的信息;

当间隔不断增大时,RNN会丧失学习到连接如此远的信息的能力。

istm神经网络 lstm神经网络模型_语言模型_02

LSTM 网络

Long Short Term 网络 可以学习长期依赖信息。

所有RNN都具有一种重复神经网络模块的链式的形式,在标准的RNN中,这个重复的模块只有一个非常简单的结构,例如一个tanh层。

istm神经网络 lstm神经网络模型_神经网络_03


LSTM中的重复模块包含四个交互的层。

istm神经网络 lstm神经网络模型_istm神经网络_04

LSTM的核心思想

LSTM的关键是细胞状态,水平线在图上方贯穿运行。

istm神经网络 lstm神经网络模型_lstm_05

门:让信息选择式通过

包含一个sigmoid神经网络层和一个pointwise乘法操作。

istm神经网络 lstm神经网络模型_语言模型_06


Sigmoid层输出0到1之间的数值,描述每个部分有多少量可以通过。

LSTM有3个门,来保护和控制细胞状态。

第一步:决定从细胞状态中丢弃什么信息

通过忘记门层完成,该门会读取 istm神经网络 lstm神经网络模型_lstm_07istm神经网络 lstm神经网络模型_istm神经网络_08 ,输出一个在0到1之间的数值给每个在细胞状态 istm神经网络 lstm神经网络模型_istm神经网络_09

  • 举个例子:在语言模型中,细胞状态可能包含当前主语的性别,因此正确的代词可以被选择出来,而当遇到新的主语,我们希望它可以忘记旧的主语

第二步:决定什么样的新信息被存放在细胞状态中

包含两个部分:

  • 输入门层(sigmoid层)决定什么值将要更新
  • tanh层创建一个新的候选值向量 istm神经网络 lstm神经网络模型_神经网络_10,会被加到状态中
    在语言模型的例子中:
  • 我们需要增加新的主语的性别到细胞状态中,来替代旧的需要忘记的主语。

第三步:确定输出什么值

  • 首先运行一个sigmoid层来确定细胞状态的哪个部分将输出出去
  • 接着把细胞状态通过tanh进行处理(得到-1到1之间的值)
  • 然后两者相乘

双向循环神经网络(BRNN)

BRNN有两个RNN上下叠加在一起组成。

istm神经网络 lstm神经网络模型_语言模型_11


对每个时刻t,输入会同时提供给两个方向相反的RNN,输出由这两个单向RNN共同决定。

BiLSTM

前向的LSTM与后向的LSTM结合成BiLSTM。

istm神经网络 lstm神经网络模型_lstm_12

参考资料:

  1. https://zhuanlan.zhihu.com/p/40119926
  2. https://zhuanlan.zhihu.com/p/47802053