R语言链梯法 r语言梯度下降

转载

网络安全战士 2024-02-02 19:58:06

文章标签 R语言链梯法 Gradient Descent 梯度下降算法标量最小化 文章分类 R语言后端开发

R语言链梯法 r语言梯度下降_Gradient Descent

什么是梯度？

对于梯度下降算法（Gradient Descent Algorithm），我们都已经很熟悉了。无论是在线性回归（Linear Regression）、逻辑回归（Logistic Regression）还是神经网络（Neural Network）等等，都会用到梯度下降算法。我们先来看一下梯度下降算法的直观解释：

假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去，一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

首先理解什么是梯度？通俗来说，梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在当前位置的导数。

$R语言链梯法 r语言梯度下降_R语言链梯法_02$

上式中， $R语言链梯法 r语言梯度下降_标量_03$ 是自变量， $R语言链梯法 r语言梯度下降_最小化_04$ 是关于 $R语言链梯法 r语言梯度下降_标量_03$ 的函数， $R语言链梯法 r语言梯度下降_标量_03$ 表示梯度。

梯度下降算法

如果函数 $R语言链梯法 r语言梯度下降_最小化_04$ 是凸函数，那么就可以使用梯度下降算法进行优化。梯度下降算法的公式我们已经很熟悉了：

$R语言链梯法 r语言梯度下降_标量_08$

其中， $R语言链梯法 r语言梯度下降_梯度下降算法_09$ 是自变量参数，即下山位置坐标， $R语言链梯法 r语言梯度下降_最小化_10$ 是学习因子，即下山每次前进的一小步（步进长度）， $R语言链梯法 r语言梯度下降_标量_03$ 是更新后的 $R语言链梯法 r语言梯度下降_梯度下降算法_09$ ，即下山移动一小步之后的位置。

梯度下降算法的公式非常简单！但是”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

一阶泰勒展开式

这里需要一点数学基础，对泰勒展开式有些了解。简单地来说，泰勒展开式利用的就是函数的局部线性近似这个概念。我们以一阶泰勒展开式为例：

$R语言链梯法 r语言梯度下降_梯度下降算法_13$

不懂上面的公式？没有关系。我用下面这张图来解释。

R语言链梯法 r语言梯度下降_R语言链梯法_14

凸函数 $R语言链梯法 r语言梯度下降_最小化_04$ 的某一小段 $R语言链梯法 r语言梯度下降_R语言链梯法_16$ 由上图黑色曲线表示，可以利用线性近似的思想求出 $R语言链梯法 r语言梯度下降_最小化_04$ 的值，如上图红色直线。该直线的斜率等于 $R语言链梯法 r语言梯度下降_最小化_04$ 在 $R语言链梯法 r语言梯度下降_梯度下降算法_09$ 处的导数。则根据直线方程，很容易得到 $R语言链梯法 r语言梯度下降_最小化_04$ 的近似表达式为：

$R语言链梯法 r语言梯度下降_梯度下降算法_13$

这就是一阶泰勒展开式的推导过程，主要利用的数学思想就是曲线函数的线性拟合近似。

梯度下降数学原理

知道了一阶泰勒展开式之后，接下来就是重点了！我们来看一下梯度下降算法是如何推导的。

先写出一阶泰勒展开式的表达式：

$R语言链梯法 r语言梯度下降_梯度下降算法_13$

其中， $R语言链梯法 r语言梯度下降_标量_23$ 是微小矢量，它的大小就是我们之前讲的步进长度 $R语言链梯法 r语言梯度下降_最小化_10$ ，类比于下山过程中每次前进的一小步， $R语言链梯法 r语言梯度下降_最小化_10$ 为标量，而 $R语言链梯法 r语言梯度下降_标量_23$ 的单位向量用 $R语言链梯法 r语言梯度下降_Gradient Descent_27$ 表示。则 $R语言链梯法 r语言梯度下降_标量_23$ 可表示为：

$R语言链梯法 r语言梯度下降_梯度下降算法_29$

特别需要注意的是， $R语言链梯法 r语言梯度下降_标量_23$ 不能太大，因为太大的话，线性近似就不够准确，一阶泰勒近似也不成立了。替换之后， $R语言链梯法 r语言梯度下降_最小化_04$ 的表达式为：

$R语言链梯法 r语言梯度下降_最小化_32$

重点来了，局部下降的目的是希望每次 $R语言链梯法 r语言梯度下降_标量_03$ 更新，都能让函数值 $R语言链梯法 r语言梯度下降_最小化_04$ 变小。也就是说，上式中，我们希望 $R语言链梯法 r语言梯度下降_最小化_35$

$R语言链梯法 r语言梯度下降_Gradient Descent_36$

因为 $R语言链梯法 r语言梯度下降_最小化_10$ 为标量，且一般设定为正值，所以可以忽略，不等式变成了：

$R语言链梯法 r语言梯度下降_梯度下降算法_38$

上面这个不等式非常重要！ $R语言链梯法 r语言梯度下降_Gradient Descent_27$ 和 $R语言链梯法 r语言梯度下降_最小化_40$ 都是向量， $R语言链梯法 r语言梯度下降_最小化_40$ 是当前位置的梯度方向， $R语言链梯法 r语言梯度下降_Gradient Descent_27$ 表示下一步前进的单位向量，是需要我们求解的，有了它，就能根据 $R语言链梯法 r语言梯度下降_梯度下降算法_29$ 确定 $R语言链梯法 r语言梯度下降_标量_03$ 值了。

想要两个向量的乘积小于零，我们先来看一下两个向量乘积包含哪几种情况：

R语言链梯法 r语言梯度下降_最小化_45

$R语言链梯法 r语言梯度下降_Gradient Descent_46$ 和 $R语言链梯法 r语言梯度下降_最小化_47$ 均为向量， $R语言链梯法 r语言梯度下降_R语言链梯法_48$ 为两个向量之间的夹角。 $R语言链梯法 r语言梯度下降_Gradient Descent_46$ 和 $R语言链梯法 r语言梯度下降_最小化_47$ 的乘积为：

$R语言链梯法 r语言梯度下降_梯度下降算法_51$

$R语言链梯法 r语言梯度下降_标量_52$ 和 $R语言链梯法 r语言梯度下降_梯度下降算法_53$ 均为标量，在 $R语言链梯法 r语言梯度下降_标量_52$ 和 $R语言链梯法 r语言梯度下降_梯度下降算法_53$ 确定的情况下，只要 $R语言链梯法 r语言梯度下降_梯度下降算法_56$ ，即 $R语言链梯法 r语言梯度下降_Gradient Descent_46$ 和 $R语言链梯法 r语言梯度下降_最小化_47$ 完全反向，就能让 $R语言链梯法 r语言梯度下降_Gradient Descent_46$ 和 $R语言链梯法 r语言梯度下降_最小化_47$ 的向量乘积最小（负最大值）。

顾名思义，当 $R语言链梯法 r语言梯度下降_Gradient Descent_27$ 与 $R语言链梯法 r语言梯度下降_最小化_40$ 互为反向，即 $R语言链梯法 r语言梯度下降_Gradient Descent_27$ 为当前梯度方向的负方向的时候，能让 $R语言链梯法 r语言梯度下降_Gradient Descent_64$ 最大程度地小，也就保证了 $R语言链梯法 r语言梯度下降_Gradient Descent_27$ 的方向是局部下降最快的方向。