人人都能看懂GRU

关注东方佑

文章目录

1. 什么是GRU
2. GRU浅析
2.1 GRU的输入输出结构
2.2 GRU的内部结构
3. LSTM与GRU的关系
4. 总结
参考文献
文章被以下专栏收录
推荐阅读
120 条评论

人人都能看懂GRU

转载

东方佑 2021-04-22 22:18:58

文章标签 GRU 文章分类 深度学习人工智能

首发于深度学习234

写文章

人人都能看懂GRU_GRU

人人都能看懂的GRU

1,083 人赞同了该文章

接续上一次介绍的LSTM ，这里我又很不要脸地使用“人人都能看懂的xxx”来作为标题，来将对GRU进行介绍。同样这里的内容是对台大李宏毅老师课程视频的一些记录以及自己的一些整理和思考。对于不懂基础RNN和LSTM的同学可以先看看我的上一篇文章 人人都能看懂的LSTM。有任何疑问欢迎交流。

1. 什么是GRU

GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。

GRU和LSTM在很多情况下实际表现上相差无几，那么为什么我们要使用新人GRU（2014年提出）而不是相对经受了更多考验的LSTM（1997提出）呢。

下图1-1引用论文中的一段话来说明GRU的优势所在。

简单译文：我们在我们的实验中选择GRU是因为它的实验效果与LSTM相似，但是更易于计算。

简单来说就是贫穷限制了我们的计算能力...

相比LSTM，使用GRU能够达到相当的效果，并且相比之下更容易进行训练，能够很大程度上提高训练效率，因此很多时候会更倾向于使用GRU。

OK，那么为什么说GRU更容易进行训练呢，下面开始介绍一下GRU的内部结构。

2. GRU浅析

2.1 GRU的输入输出结构

GRU的输入输出结构与普通的RNN是一样的。

有一个当前的输入人人都能看懂GRU_GRU_03 ，和上一个节点传递下来的隐状态（hidden state），这个隐状态包含了之前节点的相关信息。

结合人人都能看懂GRU_GRU_03 和，GRU会得到当前隐藏节点的输出和传递给下一个节点的隐状态。

那么，GRU到底有什么特别之处呢？下面来对它的内部结构进行分析！

2.2 GRU的内部结构

首先，我们先通过上一个传输下来的状态人人都能看懂GRU_GRU_03 和当前节点的输入来获取两个门控状态。如下图2-2所示，其中控制重置的门控（reset gate），为控制更新的门控（update gate）。

Tips：为 sigmoid函数，通过这个函数可以将数据变换为0-1范围内的数值，从而来充当门控信号。

与LSTM分明的层次结构不同，下面将对GRU进行一气呵成的介绍~~~ 请大家屏住呼吸，不要眨眼。

得到门控信号之后，首先使用重置门控来得到“重置”之后的数据人人都能看懂GRU_GRU_03 ，再将与输入进行拼接，再通过一个tanh激活函数来将数据放缩到-1~1的范围内。即得到如下图2-3所示的。

这里的人人都能看懂GRU_GRU_03 主要是包含了当前输入的数据。有针对性地对添加到当前的隐藏状态，相当于”记忆了当前时刻的状态“。类似于LSTM的选择记忆阶段（参照我的上一篇文章）。

图2-4中的是Hadamard Product，也就是操作矩阵中对应的元素相乘，因此要求两个相乘矩阵是同型的。则代表进行矩阵加法操作。

最后介绍GRU最关键的一个步骤，我们可以称之为”更新记忆“阶段。

在这个阶段，我们同时进行了遗忘了记忆两个步骤。我们使用了先前得到的更新门控人人都能看懂GRU_GRU_03 （update gate）。

更新表达式：人人都能看懂GRU_GRU_03

首先再次强调一下，门控信号（这里的人人都能看懂GRU_GRU_03 ）的范围为0~1。门控信号越接近1，代表”记忆“下来的数据越多；而越接近0则代表”遗忘“的越多。

有读者发现在pytorch里面的GRU[ 链接]写法相比原版对多了一个映射，相当于一个GRU变体，猜测是多加多这个映射能让整体实验效果提升较大。如果有了解的同学欢迎评论指出。

GRU很聪明的一点就在于，我们使用了同一个门控就同时可以进行遗忘和选择记忆（LSTM则要使用多个门控）。

：表示对原本隐藏状态的选择性“遗忘”。这里的可以想象成遗忘门（forget gate），忘记维度中一些不重要的信息。
：表示对包含当前节点信息的进行选择性”记忆“。与上面类似，这里的同理会忘记维度中的一些不重要的信息。或者，这里我们更应当看做是对维度中的某些信息进行选择。
：结合上述，这一步的操作就是忘记传递下来的中的某些维度信息，并加入当前节点输入的某些维度信息。

可以看到，这里的遗忘和选择是联动的。也就是说，对于传递进来的维度信息，我们会进行选择性遗忘，则遗忘了多少权重（），我们就会使用包含当前输入的中所对应的权重进行弥补。以保持一种”恒定“状态。

3. LSTM与GRU的关系

GRU是在2014年提出来的，而LSTM是1997年。他们的提出都是为了解决相似的问题，那么GRU难免会参考LSTM的内部结构。那么他们之间的关系大概是怎么样的呢？这里简单介绍一下。

大家看到人人都能看懂GRU_GRU_03 (reset gate)实际上与他的名字有点不符。我们仅仅使用它来获得了。

那么这里的人人都能看懂GRU_GRU_03 实际上可以看成对应于LSTM中的hidden state；上一个节点传下来的则对应于LSTM中的cell state。1-z对应的则是LSTM中的 forget gate，那么 z我们似乎就可以看成是选择门了。大家可以结合我的两篇文章来进行观察，这是非常有趣的。

4. 总结

GRU输入输出的结构与普通的RNN相似，其中的内部思想与LSTM相似。

与LSTM相比，GRU内部少了一个”门控“，参数比LSTM少，但是却也能够达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本，因而很多时候我们也就会选择更加”实用“的GRU啦。

参考文献

编辑于 04-25

RNN

LSTM

深度学习（Deep Learning）

赞同 1083120 条评论

分享

喜欢收藏

文章被以下专栏收录

深度学习234
深度学习相关记录与介绍
进入专栏

机器学习算法与自然语言处理
公号[机器学习算法与自然语言处理] 微信号yizhennotes
进入专栏

推荐阅读

人人都能看懂的LSTM
陈诚

动画展示RNN、LSTM和GRU计算过程
JerryFly

深入理解lstm及其变种gru
Evan

【串讲总结】RNN、LSTM、GRU、ConvLSTM、ConvGRU、ST-LSTM
SEU-AI蜗牛车

120 条评论

切换为时间排序

写下你的评论...

发布

KuangxiTEC 2018-01-03
居然看完了，明白了个大概。
4回复踩举报
陈诚 (作者) 回复 KuangxiTEC 2018-01-03
谢谢支持可以看看我上一篇lstm的●ｖ●
5回复踩举报

大器不早成 2018-02-06
厉害了，文章写得清楚明白。
2回复踩举报
陈诚 (作者) 回复大器不早成 2018-02-06
谢谢，喜欢可以点个赞支持一下(◔◡◔)
赞回复踩举报

知乎用户 2018-03-05
看了这么多，就你写的最细，结构最清楚m，配图好评
1回复踩举报
陈诚 (作者) 回复知乎用户 2018-03-05
谢谢！喜欢就点个赞啦(∩_∩)
1回复踩举报

sanity 2018-03-08
想问下文中的图片是用什么工具画的
赞回复踩举报
陈诚 (作者) 回复 sanity 2018-03-08
ppt
17回复踩举报

Piazzolla 2018-03-27
作者你好，感谢你的分享。有个问题想请教下，图中的yt应该是输出吧，是否是ht乘以一个矩阵做了维度变换？对于多层GRU网络，这个y是网络最终输出还是一层的GRU输出？谢谢！
赞回复踩举报
陈诚 (作者) 回复 Piazzolla 2018-03-27
对，网络中的yt是相当于ht做了纬度变换，作为中间层输出的时候传递给下一层是不需要进行纬度变换的，纬度变换只是为了最后能够映射到字典纬度大小来方便选择输出的词。
4回复踩举报
Piazzolla 回复陈诚 (作者) 2018-03-28
谢谢你的解答~
赞回复踩举报
展开其他 1 条回复

Piazzolla 2018-03-27
图2-3
赞回复踩举报

捉猫鼠 2018-04-08
感谢这篇文章的出现!中期答辩有说的了!
6回复踩举报
陈诚 (作者) 回复捉猫鼠 2018-04-08
????
1回复踩举报

知乎用户 2018-08-13
讲得很清楚了一下子理解了谢谢！
1回复踩举报

知乎用户 2018-10-01
GRU的内部结构应该是图2-4 ，很赞的讲解！
1回复踩举报
陈诚 (作者) 回复知乎用户 04-25
已更正谢谢
1回复踩举报

张慕晖 2018-10-11
谢谢LZ（和老师）的讲解。这里的说法比原论文（[1406.1078] Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation）更清晰一些，不过有一些小的差异，我最开始理解的时候有点困难：
以及我觉得这篇文章写得非常好，特别是对GRU的一些图示和分析，都是我之前没有见过的。赞！
5回复踩举报

门控状态的计算（评论里是不是不能写公式……）：原论文中实际上是拆成了两个矩阵，Wr和Ur，以及Wz和Uz，分别和x以及h(t-1)相乘
更新记忆中h'的计算：原论文中同样也是两个矩阵，W和U
原论文中2.3节描述的是对“一个cell中的一个unit”进行计算的过程，这里描述的应该是对“一个cell中的所有unit组成的向量”进行计算的过程。虽然向量表示法清楚得多（事实上我看了这篇文章才明白论文里在讲什么……），不过论文中强调了这一点：“As each hidden unit has separate reset and update gates, each hidden unit will learn to capture dependencies over different time scales.”我觉得这是向量表示法所没有体现出来的。
符号上的一些小差异：略

陈诚 (作者) 回复张慕晖 04-25

这块两个矩阵分别相乘相加与拼接到一起相乘的本质上是一样的。用分块矩阵相乘的思想可以拆开，这里这样写觉得更便于理解。

3回复踩举报

饮悦 2018-10-17
y_t 的公式呢？y_t 等于 h_t?
赞回复踩举报
Lightwitness 回复饮悦 2018-10-18
不是的，需要h_t乘以W
赞回复踩举报

知乎用户 2018-10-22
李宏毅老师课件吧。。。
2回复踩举报
陈诚 (作者) 回复知乎用户 04-25
图片是课件来的，本身也是看了课程后的总结思考
3回复踩举报

徐森海 2018-11-30
我完全按照作者说的屏住呼吸，不眨眼睛。幸好旁边的同学120打的及时。
18回复踩举报

平仔 2018-12-03
英文论文想引用你的图要怎么写
1回复踩举报
陈诚 (作者) 回复平仔 2018-12-03
这个不是我画的是李宏毅老师ppt上的图你可以自己画个类似的吧
2回复踩举报

不要叫你 2018-12-16
xt和ht-1一起concat，这样算出来ht维度是不是有问题，ht维度等于concat后的那个维度
赞回复踩举报
陈诚 (作者) 回复不要叫你 04-25
一样的
赞回复踩举报

知乎用户 2018-12-17
GRU是RNN的一种？
赞回复踩举报
陈诚 (作者) 回复知乎用户 2018-12-17
英文全称展开就知道了..
赞回复踩举报

知乎用户 2018-12-17
难道不是计算隐藏层的一个方法？
赞回复踩举报

不知者无畏 2018-12-29
厉害
赞回复踩举报

晓武 2018-12-30
您好！感谢您的分享，请问一下，GRU模块的输出Yt是怎么得来的呢？没有看到您提及。期待您的解答
赞回复踩举报
陈诚 (作者) 回复晓武 2018-12-30
yt其实跟ht是一样的
1回复踩举报
笑颜回复晓武 07-21
输出的ht×W'得到
1回复踩举报

1234下一页

赞
收藏
评论
分享
举报

上一篇：语音识别数据集的处理在训练之前

下一篇：人人都能看懂LSTM

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册