OCNLI 中文原版自然语言推理自然语言处理cnn

转载

langrisser 2024-08-09 00:01:14

RNN概述

RNN引入：

RNN核心思想：

RNN输入和输出结构可以等长或不等长，RNN结构按照时序展开是：（每一块都是相同的单元）

OCNLI 中文原版自然语言推理自然语言处理cnn_OCNLI 中文原版自然语言推理

RNN的参数：

在学习DNN时我们学习过反向传播算法BP，它用来反向传播误差，然后根据梯度下降调整误差，在RNN中用到的训练算法是随时间的反向传播算法BPTT(Backpropagation through time)，经常会有考题来对比BT与BPTT，实际上两者的思想是共通的，有以下要点有注意：

参考：http://colah.github.io/posts/2015-08-Understanding-LSTMs/

OCNLI 中文原版自然语言推理自然语言处理cnn_rnn_02

在上面的图例中，每一条黑线传输着一整个向量，从一个节点的输出到其他节点的输入。粉色的圈代表 pointwise 的操作，诸如向量的和，而黄色的矩阵就是学习到的神经网络层。合在一起的线表示向量的连接，分开的线表示内容被复制，然后分发到不同的位置。

OCNLI 中文原版自然语言推理自然语言处理cnn_lstm_03

OCNLI 中文原版自然语言推理自然语言处理cnn_OCNLI 中文原版自然语言推理_04

LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。下图是一个门结构：

OCNLI 中文原版自然语言推理自然语言处理cnn_OCNLI 中文原版自然语言推理_05

Sigmoid 层输出 0 到 1 之间的数值，描述每个部分有多少量可以通过。0 代表“不许任何量通过”，1 就指“允许任意量通过”。LSTM 拥有三个门，来保护和控制细胞状态。
遗忘门：决定从细胞状态中丢弃什么信息。

OCNLI 中文原版自然语言推理自然语言处理cnn_lstm_06

OCNLI 中文原版自然语言推理自然语言处理cnn_自然语言处理_07

OCNLI 中文原版自然语言推理自然语言处理cnn_lstm_08

LSTM都只能依据之前时刻的时序信息来预测下一时刻的输出，但在有些问题中，当前时刻的输出不仅和之前的状态有关，还可能和未来的状态有关系。比如预测一句话中缺失的单词不仅需要根据前文来判断，还需要考虑它后面的内容，真正做到基于上下文判断。
所谓的Bi-LSTM可以看成是两层神经网络，第一层从左边作为系列的起始输入，在文本处理上可以理解成从句子的开头开始输入，而第二层则是从右边作为系列的起始输入，在文本处理上可以理解成从句子的最后一个词语作为输入，反向做与第一层一样的处理处理。最后对得到的两个结果进行处理。

GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种，和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。
可以将GRU理解为LSTM的简化，它将输入门和遗忘门合并为更新门（更新门决定隐状态保留或者放弃哪些部分），不再有输出门，而是一个重置门。

OCNLI 中文原版自然语言推理自然语言处理cnn_BPTT_09