梯度下降能不能求解凹函数梯度下降求导过程

转载

mob64ca140bbb8b 2024-03-07 22:31:38

文章标签 梯度下降能不能求解凹函数损失函数梯度下降方差 文章分类 深度学习人工智能

前面一篇就是基础性的推导过程。从反馈的情况看，总体还是讲明白了。但是在导数的部分，仍有不少的存疑。

其实在数学方面，我也是学渣。所以尽我所能，希望再次的补充能讲的明白。若有谬误，期盼指正。

基础公式

所需基础公式抄录于下，不明白的请至上篇查看详解。

假设函数

$梯度下降能不能求解凹函数梯度下降求导过程_方差$

#### 均方差损失函数

$梯度下降能不能求解凹函数梯度下降求导过程_梯度下降_02$

#### 梯度下降求解θ

$梯度下降能不能求解凹函数梯度下降求导过程_梯度下降_03$ 摘出来上面公式步长α之后的部分： $梯度下降能不能求解凹函数梯度下降求导过程_梯度下降_04$

嗯，问题一般就是出在这里了，很多人尝试了化简，得不到上面的化简结果。

导数公式

化简上面的式子，需要微积分导数的一些知识，我抄录用到的部分于此，以方便对照查看：

导数

导数的目的是求得在给定点的切线方向，以保证梯度下降的下一步会向收敛方向（也即上面的损失函数最小化方向）迭代一个步长α。这个很多教程都讲过了，这里不再废话。

(偷懒从网上搜了张图，侵删。图中的W实际是我们公式中的θ，J(W)就是我们讲的J(θ))

首先公式$\frac∂{∂θ_j}$就是求导数的意思，别当做普通的分式，直接分子、分母把∂化简掉成为 $梯度下降能不能求解凹函数梯度下降求导过程_梯度下降_05$ 。当然大多数人不会这样做了，我只是见过这样的情况，说出来以防万一。

事实上，你把$\frac∂{∂θ_j}$换成常用的函数描述 $梯度下降能不能求解凹函数梯度下降求导过程_梯度下降能不能求解凹函数_06$ 可能更贴切。

#### 对函数的和求导法则为了描述起来方便，我们下面使用'符号来代表求导：

$梯度下降能不能求解凹函数梯度下降求导过程_梯度下降_07$ 在上面的公式中推广一下，Sigma求和不影响求导的传导，直接把Sigma符号提到前面就好： $梯度下降能不能求解凹函数梯度下降求导过程_梯度下降能不能求解凹函数_08$

#### 对函数的积求导法则

$梯度下降能不能求解凹函数梯度下降求导过程_损失函数_09$

#### 幂函数求导法则

$梯度下降能不能求解凹函数梯度下降求导过程_损失函数_10$

#### 对常数求导这是我最爱的部分：

$梯度下降能不能求解凹函数梯度下降求导过程_梯度下降_11$

#### 链式法则这是我最不喜欢的部分：假设我们希望对变量z求导，而变量z依赖变量y,变量y又依赖变量x。例如：

$梯度下降能不能求解凹函数梯度下降求导过程_梯度下降_12$ 也即: $$ z = f(g(x)) $$ 那么对z求导就构成了链式法则： $$ (z)' = (f(g(x)))'·（g(x))' $$ 注意最后面乘上内部依赖函数求导的过程，简直是反人类的天外来客，经常会忘。但我等遵循自然界规则的凡人又能如何，死记而已。

推导

基本公式列完，开始推导过程：

$梯度下降能不能求解凹函数梯度下降求导过程_损失函数_13$ 根据上面说的求和函数求导法则： $梯度下降能不能求解凹函数梯度下降求导过程_梯度下降_14$ 别急着对幂求导，考虑对中间的损失函数的依赖，实际要先处理链式法则： $梯度下降能不能求解凹函数梯度下降求导过程_梯度下降_15$ 现在方程式前面的部分可以幂求导了，后面的部分把假设函数先展开： $梯度下降能不能求解凹函数梯度下降求导过程_方差_16$ 因为展开的假设函数中使用i代表第i个权重，所以前面的求导也换成了$θ_i$，不是指第i个批次的样本数据。这里原来没有打算展开讲，所以使用的符号名称有点容易混，但概念清楚的话不应当闹误会。

继续，式子前半部分的2跟1/2会抵消掉，这是前篇做均方差时候乘1/2的目的；后面的Sigma求导继续使用求和函数求导法则展开：

$梯度下降能不能求解凹函数梯度下降求导过程_方差_17$ 前半部分的化简已经完成，简单起见，我们只把后面部分摘出来： $梯度下降能不能求解凹函数梯度下降求导过程_方差_18$ 根据求和函数求导法则展开，等于对其中每一项求导。而我们在对$θ_i$进行求导的时候，其余各项对我们来说，实际上就是一个常数，它们在求导这一刻是固定不能变的。嗯嗯，记得上一篇最后的提醒吗？θ在每个循环内固定不变，在计算完所有的θ之后，才一次代入，并在下个循环内保持不变。

而对常数求导，刚才说过了，那是我的最爱，因为结果是0。还有我们抄了好几行的 $梯度下降能不能求解凹函数梯度下降求导过程_方差_19$ 求导，我忍得好辛苦，因为那也是样本集给出的常数，所以结果也是0： $梯度下降能不能求解凹函数梯度下降求导过程_梯度下降能不能求解凹函数_20$ 现在需要对乘积函数求导展开了： $梯度下降能不能求解凹函数梯度下降求导过程_损失函数_21$ 你看，这世界不总是那么残酷的，后面的$x_i$又双叒叕是一个常量，所以求导之后乘上$θ_i$仍然是0。前面对$θ_i$的求导结果是1，原因很简单，你可以把$θ_i$看做1次幂。 $梯度下降能不能求解凹函数梯度下降求导过程_损失函数_22$ 只是瞬间，这个世界就清净了。原来对假设函数求导的最终结果，不过是$θ_i$的系数$x_i$。