梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。
其实梯度爆炸和梯度消失问题都是因为网络太深,网络权值更新不稳定造成的,本质上是因为梯度反向传播中的连乘效应。对于更普遍的梯度消失问题,可以考虑用ReLU激活函数取代sigmoid激活函数。另外,LSTM的结构设计也可以改善RNN中的梯度消失问题。
梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。
其实梯度爆炸和梯度消失问题都是因为网络太深,网络权值更新不稳定造成的,本质上是因为梯度反向传播中的连乘效应。对于更普遍的梯度消失问题,可以考虑用ReLU激活函数取代sigmoid激活函数。另外,LSTM的结构设计也可以改善RNN中的梯度消失问题。
解决梯度爆炸和梯度消失的办法
梯度消失与爆炸
一:梯度消失在深层网络中,一方面由于求导法则,计算越前面层次或以输入到某一层次需要用到的时候。求导的过程中,偏导数不至于为0,或者说降低
采用 sigmoidsigmoidsigmoid 为激活函数,当反向传播使用 链式法则 的时候会有连乘,就会出现梯度
梯度消失和爆炸, 是神经网络都会遇到问题, 最能理解, 反而从数学上, 梯度意义 和 梯度下降法(参数更新) 这块就能理解.
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M