istm神经网络 lstm神经网络模型

转载

mob64ca14089531 2023-08-19 10:03:37

文章标签 istm神经网络 lstm 神经网络 rnn 语言模型 文章分类 神经网络人工智能

Recurrent Neural Networks

RNN可以看做是同一神经网络的多次复制，每个神经网络模块会把消息传递给下一个。

istm神经网络 lstm神经网络模型_rnn

LSTM是一种特别的RNN。

长期依赖问题（Long-Term Dependencies）

相关的信息和预测的词位置之间的间隔非常小时，RNN可以学会使用先前的信息；

当间隔不断增大时，RNN会丧失学习到连接如此远的信息的能力。

istm神经网络 lstm神经网络模型_语言模型_02

LSTM 网络

Long Short Term 网络可以学习长期依赖信息。

所有RNN都具有一种重复神经网络模块的链式的形式，在标准的RNN中，这个重复的模块只有一个非常简单的结构，例如一个tanh层。

istm神经网络 lstm神经网络模型_神经网络_03

LSTM中的重复模块包含四个交互的层。

istm神经网络 lstm神经网络模型_istm神经网络_04

LSTM的核心思想

LSTM的关键是细胞状态，水平线在图上方贯穿运行。

istm神经网络 lstm神经网络模型_lstm_05

门：让信息选择式通过

包含一个sigmoid神经网络层和一个pointwise乘法操作。

istm神经网络 lstm神经网络模型_语言模型_06

Sigmoid层输出0到1之间的数值，描述每个部分有多少量可以通过。

LSTM有3个门，来保护和控制细胞状态。

第一步：决定从细胞状态中丢弃什么信息

通过忘记门层完成，该门会读取 $istm神经网络 lstm神经网络模型_lstm_07$ 和 $istm神经网络 lstm神经网络模型_istm神经网络_08$ ，输出一个在0到1之间的数值给每个在细胞状态 $istm神经网络 lstm神经网络模型_istm神经网络_09$

举个例子：在语言模型中，细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来，而当遇到新的主语，我们希望它可以忘记旧的主语。

第二步：决定什么样的新信息被存放在细胞状态中

包含两个部分：

输入门层（sigmoid层）决定什么值将要更新
tanh层创建一个新的候选值向量 $istm神经网络 lstm神经网络模型_神经网络_10$ ，会被加到状态中
在语言模型的例子中：
我们需要增加新的主语的性别到细胞状态中，来替代旧的需要忘记的主语。

第三步：确定输出什么值

首先运行一个sigmoid层来确定细胞状态的哪个部分将输出出去
接着把细胞状态通过tanh进行处理（得到-1到1之间的值）
然后两者相乘

双向循环神经网络（BRNN)

BRNN有两个RNN上下叠加在一起组成。

istm神经网络 lstm神经网络模型_语言模型_11

对每个时刻t，输入会同时提供给两个方向相反的RNN，输出由这两个单向RNN共同决定。

BiLSTM

前向的LSTM与后向的LSTM结合成BiLSTM。

istm神经网络 lstm神经网络模型_lstm_12

参考资料：

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java里面的xdr格式是什么 java x++什么意思

下一篇：innodb文件 mysql mysql ndb innodb

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯