采用梯度下降的BP网络

转载

AI领域布道师 2024-09-26 14:08:46

文章标签 采用梯度下降的BP网络机器学习梯度下降法迭代最优解 文章分类 深度学习人工智能

1. 概念

梯度下降法（Gradient Descent）又称最速下降法（Steepest descent）是一种常用的一阶优化方法，是一种用于求解无约束最优化问题的最常用的方法。它选取适当的初始值

${x^{\left( 0 \right)}}$

，并不断向负梯度方向迭代更新

采用梯度下降的BP网络_梯度下降法_02

，实现目标函数的极小化，直到收敛。

2. 梯度下降的直观解释

以下山法作为类别，我们想要从山的某个位置下山，但我们并不知道山脚的位置，只能走一步算一步。从当前位置出发，往当前位置的负梯度方向走一步，即往最陡峭的方向往下走一步。然后继续求解当前位置的梯度，往负梯度方向走一步。不停走下去，一直走到我们认为已经到了山脚的位置。当然，也有可能，我们没办法到山脚，而是到了一个小山丘底部。

采用梯度下降的BP网络_迭代_03

当目标函数是凸函数的时候，梯度下降法可以确保找到全局最优解；否则不一定能找到全局最优解，可能会陷入局部最优解。

3. 梯度下降法的原理

考虑最优化问题

$\min {}_xf\left( x \right)$

，其中

$f\left( x \right)$

具有一阶连续偏导数。若第

采用梯度下降的BP网络_采用梯度下降的BP网络_06

次迭代值为

${x^{\left( k \right)}}$

，对

$f\left( x \right)$

在

${x^{\left( k \right)}}$

处进行一阶泰勒展开：

$f\left( x \right) = f\left( {{x^{\left( k \right)}}} \right) + \left( {x - {x^{\left( k \right)}}} \right)\nabla f\left( {{x^{\left( k \right)}}} \right)$

（1）

采用梯度下降的BP网络_梯度下降法_11

凸函数
$f(\theta)$
的某一小段
$[\theta_0,\theta]$
由上图黑色曲线表示，可以利用线性近似的思想求出
$f(\theta)$
的值，如上图红色直线。该直线的斜率等于
$f(\theta)$
在
$\theta_0$
处的导数。则根据直线方程，很容易得到
$f(\theta)$
的近似表达式为：

$f\left( \theta \right) = f\left( {{\theta _0}} \right) + \left( {\theta - {\theta _0}} \right) \cdot \nabla f\left( {{\theta _0}} \right)$
这就是一阶泰勒展开式的推导过程，主要利用的数学思想就是曲线函数的线性拟合近似。

其中，

$x - {x^{\left( k \right)}}$

是微小矢量，大小是步长

$\alpha$

，类比于下山过程中的一步。

$\alpha$

是标量，

$x - {x^{\left( k \right)}}$

的单位向量用

采用梯度下降的BP网络_最优解_23

表示，则

$x - {x^{\left( k \right)}}$

可以表示为：

$x - {x^{\left( k \right)}} = \alpha v$

（2）

此时，（1）可以化为：

$f\left( x \right) = f\left( {{x^{\left( k \right)}}} \right) + \alpha v\nabla f\left( {{x^{\left( k \right)}}} \right)$

（3）我们希望每次迭代，都能使

$f\left( x \right)$

变小，也就是说希望有：

$f\left( x \right) - f\left( {{x^{\left( k \right)}}} \right) = \alpha v\nabla f\left( {{x^{\left( k \right)}}} \right) < 0$

（4）由于

$\alpha$

是标量，且一般设定为正值，因此

$\alpha$

可以忽略。由于

采用梯度下降的BP网络_最优解_23

和

$\nabla f\left( {{x^{\left( k \right)}}} \right)$

都是向量，根据向量的乘积公式可以将（4）转换为：

$v\nabla f\left( {{x^{\left( k \right)}}} \right) = \left\| v \right\| \cdot \left\| {f\left( {{x^{\left( k \right)}}} \right)} \right\|\cos \left( {v,f\left( {{x^{\left( k \right)}}} \right)} \right) < 0$

（5）当

采用梯度下降的BP网络_最优解_23

和

$\nabla f\left( {{x^{\left( k \right)}}} \right)$

反向时，

$\cos \left( {v,f\left( {{x^{\left( k \right)}}} \right)} \right) = - 1$

，可以使得

$\alpha v\nabla f\left( {{x^{\left( k \right)}}} \right)$

最小，且为负。即

采用梯度下降的BP网络_最优解_23

的方向是使局部的目标函数下降最快的方向。得到

采用梯度下降的BP网络_最优解_23

为：

$v = - \frac{{\nabla f\left( {{x^{\left( k \right)}}} \right)}}{{\left\| { \nabla f\left( {{x^{\left( k \right)}}} \right)} \right\|}}$

（6）

以上解释了为什么局部下降最快的方向就是梯度的负方向。

将（6）中的最优解

采用梯度下降的BP网络_最优解_23

代入（2）中，得到

采用梯度下降的BP网络_梯度下降法_02

的更新表达式为：

$x - {x^{\left( k \right)}} = - \alpha \frac{{ \nabla f\left( {{x^{\left( k \right)}}} \right)}}{{\left\| {\nabla f\left( {{x^{\left( k \right)}}} \right)} \right\|}}$

（7）由于

$\left\| {f\left( {{x^{\left( k \right)}}} \right)} \right\|$

是标量，可以吸收入

$\theta$

里面，梯度下降算法的更新表达式就变成了：

$x - {x^{\left( k \right)}} = - \alpha \nabla f\left( {{x^{ \left( k \right)}}} \right)$

（8）

以上就是梯度下降算法公式的数学推导过程。

4. 算法描述

输入：目标函数

$f\left( x \right)$

、梯度函数

$\nabla f\left( x \right)$

，计算精度

$\varepsilon$

。输出：

$f\left( x \right)$

的极小点

${x^*}$

。（1）初始化相关参数。取初始值

${x^{\left( 0 \right)}} \in {R^n}$

，置迭代次数

采用梯度下降的BP网络_机器学习_53

（2）计算当前位置的目标函数

$f\left( {{x^{\left( 0 \right)}}} \right)$

。

（3）计算当前位置的目标函数的梯度

$\nabla f\left( {{x^{\left( k \right)}}} \right)$

。如果

$\left\| {\nabla f\left( {{x^{\left( k \right)}}} \right)} \right\| < \varepsilon$

，则迭代结束，

${x^*} = {x^{\left( k \right)}}$

。否则，继续往下走。（4）更新

。
${x^{\left( {k + 1} \right)}} = {x^{\left( k \right)}} - \alpha \nabla f\left( {{x^{\left( k \right)}}} \right)$
，如果

$\left\| {{x^{\left( {k + 1} \right)}} - {x^{\left( k \right)}}} \right\| < \varepsilon$

或者

$\left\| {f\left( {{x^{\left( {k + 1} \right)}}} \right) - f\left( {{x^{\left( k \right)}}} \right)} \right\| < \varepsilon$

，则停止迭代，令

${x^*} = {x^{\left( {k + 1} \right)}}$

。否则，将迭代次数置为

采用梯度下降的BP网络_最优解_63

，转到（3）继续迭代。在机器学习中，目标函数

$f\left( x \right)$

实际上就是代价函数

$J\left( \theta \right)$

。

5. 梯度下降法种类

5.1 批量梯度下降法（Batch Gradient Descent，BGD）

批量梯度下降法是梯度下降法最常用的形式。每次更新参数要使用所有的样本进行计算。

假设目标函数为：

$J\left( \theta \right) = \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{\left( {{y_i} - {h_\theta }\left( {{x_i}} \right)} \right)}^2}}$

求偏导得：

$\frac{{\partial J\left( \theta \right)}}{{\partial {\theta _j}}} = - \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{y_i} - {h_\theta }\left( {{x_i}} \right)} \right){x_{ij}}}$

批量梯度下降法的更新公式为：

${\theta ^{\left( {k + 1} \right)}} = {\theta ^{\left( k \right)}} - \alpha \sum\limits_{i = 1}^m {\left( {{y_i} - {h_\theta }\left( {{x_i}} \right)} \right){x_{ij}}}$

5.2 随机梯度下降法（Stochastic Gradient Descent，SGD）

随机梯度下降法与批量梯度下降法类似。每次更新参数只使用随机的一个样本进行计算。

随机梯度下降法的更新公式为：

${\theta ^{\left( {k + 1} \right)}} = {\theta ^{\left( k \right)}} - \alpha \left( {{y_i} - {h_\theta }\left( {{x_i}} \right)} \right){x_{ij}}$

批量梯度下降法和随机梯度下降法的区别是什么？

（1）批量梯度下降法每次使用所有数据来更新参数，训练速度慢；

（2）随机梯度下降法每次只使用一个数据来更新参数，训练速度快；但迭代方向变化大，不一定每次都朝着收敛的方向，不能很快地收敛到局部最优解。

5.3 小批量梯度下降法（Mini-Batch Gradient Descent，MBGD）

小批量梯度下降法是批量梯度下降法和随机梯度下降法的一个折中。每次更新参数选择一小部分数据计算。

选择

采用梯度下降的BP网络_迭代_70

个数据，

采用梯度下降的BP网络_最优解_71

。

小批量梯度下降法的更新公式为：

${\theta ^{\left( {k + 1} \right)}} = {\theta ^{\left( k \right)}} - \alpha \sum\limits_{i = 1}^t {\left( {{y_i} - {h_\theta }\left( {{x_i}} \right)} \right){x_{ij}}}$

6. 局部最优解解决方法

如第二节（梯度下降的直观解释）中描述的，如果目标函数具有多个局部极小值，不能保证找到的解是全局最优解。为了解决这一问题，常采用以下策略来试图跳出局部最优：

1. 以多组不同参数值进行初始化，这样有可能陷入不同的局部极小，从中进行选择有可能获得更接近全局最小的结果；

2. 使用“模拟退火”技术，在每一步都以一定概率接收比当前解更差的结果，有助于跳出局部极小；

3. 使用随机梯度下降，最小化每个样本的损失函数，而不是最小化整体的损失函数，虽然不是每次迭代得到的损失函数都朝着收敛的方向，但是整体的方向是朝着全局最优解的，最终的结果往往是在全局最优解附近。

参考文献：
1.《统计学习方法》附录A梯度下降法——李航
2. 为什么局部下降最快的方向就是梯度的负方向？
3. 梯度下降（Gradient Descent）小结

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：seatunnel 配置spark引擎

下一篇：ESP32图传的原理 esp32做图传

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯