梯度下降算法原理及代码实现

原创

mob604756f3c518 2021-03-23 20:17:38 ©著作权

文章标签 java 文章分类 数据结构与算法人工智能

©著作权归作者所有：来自51CTO博客作者mob604756f3c518的原创作品，请联系作者获取转载授权，否则将追究法律责任

1 概述

梯度下降（Gradient Descent）在机器学习中是很常用的算法，它不仅被用在了线性回归上，还被广泛应用于机器学习的众多领域，它的主要目的是通过迭代找到目标函数的最小值，或者收敛到最小值。

本文将从一个下山的场景开始，先提出梯度下降算法的基本思想，进而从数学上解释梯度下降算法的原理，解释为什么要用梯度，最后将此算法应用于具体的拟合直线的线性回归中。

2 梯度下降算法

2.1 场景假设

想象一下你正站立在一座红色山上，站立在山的一点上，在梯度下降算法中，我们要做的就是旋转360度，看看我们的周围，并问自己要在某个方向上，用小碎步尽快下山。这些小碎步需要朝什么方向？如果我们站在山坡上的这一点，你看一下周围，你会发现最佳的下山方向，你再看看周围，然后再一次想想，我应该从什么方向迈着小碎步下山，然后你按照自己的判断又迈出一步，重复上面的步骤，从一个新的点，你环顾四周，并决定从什么方向将会最快下山，然后又迈进了一小步，并依此类推，直到你接近局部最低点的位置。如图1所示，具体可描述为：首先以当前所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着下降方向走一步，然后又继续以当前位置为基准，再找最陡峭的地方，再走直到最后到达最低处。

梯度下降算法原理及代码实现_java

图1

2.2 梯度下降

梯度下降的基本过程就和下山的场景很类似。首先，我们有一个可微分的函数，这个函数就代表着一座山。我们的目标就是找到这个函数的最小值，也就是山底。根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快。因为梯度的方向就是函数变化最快的方向。所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。

梯度下降算法原理及代码实现_java_02