双向长短期记忆网络代码 lstm长短期记忆网络

转载

mob6454cc786d85 2024-02-22 03:01:01

文章标签 双向长短期记忆网络代码 lstm 深度学习网络层工作原理 文章分类 深度学习人工智能

一.长短期记忆网络LSTM简介

LSTM是对RNN的改进和升级，在RNN模型中，对于长期依赖的问题可能产生梯度消失和梯度爆炸，而在RNN的基础上改进而来的LSTM则特别适合解决这类需要长时间依赖的问题。LSTM相对于RNN的不同使，LSTM将“记忆细胞”进行了改造，而不是像RNN那样只有一个简单的激活函数。在LSTM中，需要记录的信息会一直传递，不需要记录的信息会被截断掉

如下图所示，部分输出和输入被从网络中删除

双向长短期记忆网络代码 lstm长短期记忆网络_网络层

二.LSTM工作原理

如下图展示了LSTM的一个神经元内部的结构。每一条黑线传输着一整个向量，从一个节点的输出到其他节点的输入；粉色的圈代表 pointwise 的操作，诸如向量的和；黄色的矩阵则是学习过程中的神经网络层；两条线和在一起表示向量的连接，比如一个十维向量和一个二十维向量合并后形成一个三十维向量；分开的线表示内容被复制，分发到不同的位置。

双向长短期记忆网络代码 lstm长短期记忆网络_深度学习_02

细胞状态

神经元之间传递的信息称为细胞状态，如下图所示，该线路用来传递神经元最主要的信息，其他线路则是通过对该线路施加影响来调整细胞状态的值

双向长短期记忆网络代码 lstm长短期记忆网络_工作原理_03

LSTM对细胞状态的控制

LSTM可以通过gates门结构来去影响细胞状态的信息，gates门结构包含一个sigmoid神经网络层次和一个pointwist乘法操作，Sigmoid层输出一个0到1之间的概率值，描述每个部分有多少量可以通过，0表示不允许任务变量通过，1表示运行所有变量通过，LSTM中主要有三个门结构来影响细胞状态，分别是：忘记门，信息增强门，输出门

双向长短期记忆网络代码 lstm长短期记忆网络_lstm_04