神经网络中的梯度运算神经网络梯度公式推导

转载

技术笔耕者 2023-11-11 18:15:18

文章标签 神经网络中的梯度运算激活函数梯度下降神经网络 文章分类 神经网络人工智能

为什么要使用backpropagation?

神经网络中的梯度运算神经网络梯度公式推导_激活函数

梯度下降不用多说，如果不清楚的可以参考。

神经网络的参数集合theta，包括超级多组weight和bais。

要使用梯度下降，就需要计算每一个参数的梯度，但是神经网络常常有数以万计，甚至百万的参数，所以需要使用backpropagation来高效地计算梯度。

backpropagation的推导

backpropagation背后的原理其实很简单，就是求导的链式法则。

神经网络中的梯度运算神经网络梯度公式推导_神经网络中的梯度运算_02

神经网络中的梯度运算神经网络梯度公式推导_梯度下降_03

神经网络中的梯度运算神经网络梯度公式推导_激活函数_04

我们从上面的公式开始推导。以其中一个神经元为例。

神经网络中的梯度运算神经网络梯度公式推导_激活函数_05

如上面的红框中所示，根据链式法则，l对w的偏导数，等于z对w的偏导数乘以l对z的偏导数。

l对w的梯度可以分为两部分：

前向传播：对所有参数求梯度；

后向传播：对所有激活函数的输入z求梯度；

神经网络中的梯度运算神经网络梯度公式推导_激活函数_06

前向传播的梯度求法简单，就前一层的输入z对w求偏导数，直接求出就是对应的输入x_i。

神经网络中的梯度运算神经网络梯度公式推导_神经网络中的梯度运算_07

只要知道了激活函数的输出值，就可以轻易算出z/w的梯度，这个过程就是前向传播。

神经网络中的梯度运算神经网络梯度公式推导_神经网络中的梯度运算_08

后向传播比较复杂，需要再使用链式法则，如红框中所示。l/z的梯度分解为a/z和l/a的梯度。

z对应当前节点的输入，a对应当前节点的输出。

a对z的导数图像如上所示，现在关键就是求l对a的偏导数。

神经网络中的梯度运算神经网络梯度公式推导_激活函数_09

为了求出l对a的偏导数，继续使用链式法则，关联上后面的两个神经元。

a通过z’和z''间接影响C，l/a的梯度应该是它所连接的所有神经元的梯度之和，不止是上面说的两项。

现在问题就转化成了，求红框中的两个问号的梯度/

神经网络中的梯度运算神经网络梯度公式推导_神经网络中的梯度运算_10

现在假设两个问号梯度已知，就可以求出之前l对z的梯度了。

神经网络中的梯度运算神经网络梯度公式推导_激活函数_11

这样看上去有形成了一个新的网络，一个新的neural，输入是l/z'和l/z''的梯度,分别乘上对应权重w3，w4，

经过激活函数的作用，输出l/z的梯度。

现在来看看怎么可以求出l对z的梯度。

神经网络中的梯度运算神经网络梯度公式推导_激活函数_12

第一种情况：当z‘和z’‘为输出层时。根据链式法则，y/z的梯度可以根据对应的激活函数算出了，l/y的梯度是根据Cost function算出来的，这样问题就解决了。

神经网络中的梯度运算神经网络梯度公式推导_激活函数_13

第二种情况：不是输出层。就是说还有后续的神经元节点连接，就再往后看。

神经网络中的梯度运算神经网络梯度公式推导_神经网络中的梯度运算_14

循环计算l对z的梯度，直到输出层，出现case1的情况，问题也就解决了。

神经网络中的梯度运算神经网络梯度公式推导_神经网络_15

所以，我们就可以从输出层开始，反向计算l对每层z的梯度，在结合前向传播得到的梯度，就可以计算出梯度下降所需的梯度了。

而且，反向传播的复杂度和前向传播是一样的，这样就大大提升了梯度计算的效率。后一层的梯度，乘以相应的w，相加再乘上σ‘(z)，就得到了当前层的l/z的梯度。

最后结果就是这样的：

神经网络中的梯度运算神经网络梯度公式推导_神经网络中的梯度运算_16

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql怎么让删除数据后主键自动更新 mysql外键删除时更新时

下一篇：java查组织机构树形图 java组装树形结构

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯