rnn怎么处理不等长序列序列模型rnn的结构包含

关注 mob64ca1405a060

rnn怎么处理不等长序列序列模型rnn的结构包含

转载

mob64ca1405a060 2024-03-26 11:03:13

文章标签 rnn怎么处理不等长序列 github 建模重置 文章分类 机器学习人工智能

5.1 序列模型

5.1.1 RNN结构介绍

在CNN模型中一定是要求固定长度的输入和输出，而RNN单元的内部结构如下图所示。

rnn怎么处理不等长序列序列模型rnn的结构包含_重置

RNN序列是可以有多种结构的，并且每种结构下又可以有多种变体。

One-to-n的结构如下，圆圈或是方块表示的是向量，一个箭头就表示对该向量做一次变换

rnn怎么处理不等长序列序列模型rnn的结构包含_rnn怎么处理不等长序列_02

。

one-to-n 的结构可以用来从图像生成文字（image caption），此时输入的X就是图像的特征，而输出的y序列就是一段句子，就像看图说话等。

N-to-n的结构如下，要求输入序列和输出序列是等长的。

rnn怎么处理不等长序列序列模型rnn的结构包含_建模_05

而n-to-one的结构主要是用来做序列分类，如下所示。

rnn怎么处理不等长序列序列模型rnn的结构包含_建模_06

RNN存在的问题：

当输入序列过长时，RNN后面序列的特征无法获得前面的特征，导致长期依赖(Long Term Dependency)问题。
梯度爆炸和梯度消失。梯度爆炸可以通过设定梯度阈值来解决。梯度消失是由于权值矩阵循环相乘导致在长期依赖中梯度过小。因为为了让h4依然能够获得h1时刻的特征，就要求梯度尽可能小，可能导致梯度消失（Vanishing Gradient）。

5.1.2 LSTM

LSTM是1997年第一次提出，在深度学习时代大放异彩，很好的抑制了原始RNN算法中的梯度消失问题。LSTM单元的内部结构如下图所示。每个黄色方框表示一个神经网络层，由权值，偏置以及激活函数组成；每个粉色圆圈表示元素级别操作。

rnn怎么处理不等长序列序列模型rnn的结构包含_github_07

其中有几个特定称呼：

单元状态（cell state）
遗忘门 , 表示Ct-1的哪些特征被用于计算Ct。
输入门叫作输入门，it用于控制的哪些特征用于更新Ct。类似ft。表示单元状态更新值。
输出门 Ot是输出门。其中ot的作用类似ft和it，是用来控制一个比例的。

5.1.3 GRU

GRU（Gate Recurrent Unit）在2014年提出，与LSTM功能一样，优势是计算简单快速。

r是重置门控（reset gate），z是控制更新的门控（update gate）

GRU只有两个门控状态。 rnn怎么处理不等长序列序列模型rnn的结构包含_rnn怎么处理不等长序列_23 使用了

rnn怎么处理不等长序列序列模型rnn的结构包含_建模_24

，是经过重置门重置过的前一个隐藏状态

rnn怎么处理不等长序列序列模型rnn的结构包含_建模_25

，表示是对之前状态的选择性记忆。计算 rnn怎么处理不等长序列序列模型rnn的结构包含_github_26 的阶段包含了遗忘和记忆，门控z越接近1代表记忆越多，越接近0代表遗忘越多。

LSTM和GRU的关系如下：（1）GRU，LSTM是表现最好的模型；（2）GRU的在除了语言模型的场景中表现均超过LSTM；（3）LSTM的输出门的偏置的均值初始化为1时，LSTM的性能接近GRU；（4）在LSTM中，门的重要性排序是遗忘门 > 输入门 > 输出门。

5.1.4 Multi-layer RNN

RNN也可以有多层结构，原理上没有什么特别之处，其中隐含层的输入输出可以是多种变体结构，下图是一个例子，且每一个cell unit可以是LSTM、GRU等。

rnn怎么处理不等长序列序列模型rnn的结构包含_重置_27

5.1.5 Bi-LSTM

LSTM的直观问题就是无法编码从后向前的信息，比如文本情感分类任务中“这个餐厅脏的不行”，这里“不行”是对“餐厅”的形容，通过BiLSTM可以更好的捕捉双向语义关系。注意前向编码和后向编码的向量最终是要拼接在一起，形式可以有多种，比如以下两种形式。

rnn怎么处理不等长序列序列模型rnn的结构包含_github_28

rnn怎么处理不等长序列序列模型rnn的结构包含_建模_29

关于RNN及上面各种变体的tf代码示例参考

https://github.com/aymericdamien/TensorFlow-Examples/。

其中RNN的TF cell介绍见：

https://github.com/weidong1/tf_ai_algorithm/blob/master/tf_examples/rnn_examples/tf_rnn_introduction.py

RNN建模见：

https://github.com/weidong1/tf_ai_algorithm/blob/master/tf_examples/rnn_examples/tf_rnn.py

BiLSTM建模见：

https://github.com/weidong1/tf_ai_algorithm/blob/master/tf_examples/rnn_examples/tf_bilstm.py

Multi-layer RNN建模见：

https://github.com/weidong1/tf_ai_algorithm/blob/master/tf_examples/rnn_examples/tf_multilayer_rnn.py

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：spring gateway 路由方式 spring gateway 自定义路由

下一篇：内存型数据库和关系型数据库的区别内存数据库系统

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册