python牛顿下降法解决优化问题牛顿法 python

转载

人类新新 2024-01-10 12:16:36

文章标签 python牛顿下降法解决优化问题 python牛顿法与拟牛顿法迭代牛顿法梯度下降 文章分类 Python 后端开发

最近两天一直在复习李航老师的《统计学习方法》这本书上面的知识，看到了优化算法。推导了梯度下降与牛顿法的计算公式，并最终实现了相应python代码。想着记录下来，所以我就用这篇文章来记录一些要点。

梯度下降

关于梯度下降没什么好说的了，就主要是利用函数的一阶导。代码如下：

def gradient_descent_ld(grad, cur_x=0.1, learning_rate=0.01, precision=0.0001, max_iters=1000):

"""

一维问题的梯度下降法

:param grad: 目标函数的梯度

:param cur_x: 当前x值，通过参数可以提供初始值

:param learning_rate: 学习率，也相当于设置的步长

:param precision: 设置收敛精度

:param max_iters: 最大迭代次数

:return: 局部最小值x

"""

for i in range(max_iters):

grad_cur = grad(cur_x)

# 当梯度趋近于0时，视为收敛

if abs(grad_cur) < precision:

break

cur_x = cur_x - grad_cur * learning_rate

print("第%d次迭代的x值为：%f" % (i, cur_x))

print("局部最小值 x=", cur_x)

return cur_x

上面这段代码里的learning_rate步长是固定的，在[0,1]直接。但是根据定义来说，这应该是随着迭代的次数增加而变小的。这个应该不难理解，所以我在下面又实现了变步长的方法。

def gradient_descent_ld_decay(grad, cur_x=0.1, learning_rate=0.01, precision=0.0001, max_iters=1000, decay=0.5):
"""

一维问题的梯度下降法，变步长

:param grad: 目标函数的梯度

:param cur_x: 当前x值，通过参数可以提供初始值

:param learning_rate: 学习率，也相当于设置的步长

:param precision: 设置收敛精度

:param max_iters: 最大迭代次数

:param decay: 学习率衰减因子

:return:

"""

for i in range(max_iters):

# 新的步长

learning_rate = learning_rate * 1.0 / (1.0 + decay * i)

grad_cur = grad(cur_x)

# 当梯度趋近于0时，视为收敛

if abs(grad_cur) < precision:

break

cur_x = cur_x - grad_cur * learning_rate

print("第%d次迭代的x值为：%f" % (i, cur_x))

print("局部最小值 x=", cur_x)

return cur_x

其实步长变化公式就是这一步：

$equation?tex=lr+%3D+%5Cfrac%7Blr+%2A+1.0%7D%7B1.0%2Bdecay%2Ai%7D$

牛顿法

牛顿法其实就是求函数二阶导，通过二阶导的正负性来进一步判断极值的存在。

比如：

python牛顿下降法解决优化问题牛顿法 python_牛顿法_02

,该函数的一阶导为：

python牛顿下降法解决优化问题牛顿法 python_python牛顿法与拟牛顿法_03

.在x=0处是可以得到

python牛顿下降法解决优化问题牛顿法 python_python牛顿下降法解决优化问题_04

.但是很明显x=0并不是该函数的极小值。如下图所示：

所以，这时候要判断函数的二阶导数。如果函数是多元函数的话，这时候就要引入一个新的概念了，叫海森矩阵（Hessian）.具体怎么求，我这儿就不多说了，我们只需要记住一点。如果海森矩阵的行列式的值大于0，说明该函数有极值。我这儿要解释的一点就是关于向量对向量的求导了。具体是来自于这两步公式：

等式两边对x向量求导，可得：

这个当时有点让我迷糊了，其实可以转化为以下不等式：

$equation?tex=%5Cfrac%7B%5Cvarrho+x%5E%7BT%7D%2AA%2Ax%7D%7B%5Cvarrho+x%7D%3D%28A%2BA%5E%7BT%7D%29%2Ax$

其中，假设A为二阶矩阵，x为二维列向量。

其实，暴力解是可以得到答案的，比如下图所示：

但总觉得这样有失美观，所以找了一位数学系的同学，帮我重新整理了思路。她首先是把泰勒展开那两步公式给换了，如下图所示：

这才恍然大悟，这其中有一点我之前是忘了，就是以下公式：

python牛顿下降法解决优化问题牛顿法 python_迭代_06

，其中X为向量或矩阵。

代码如下：

def newton(f, x, iters):

"""

实现牛顿法

:param f: 原函数

:param x: 初始值

:param iters: 遍历的最大epoch

:return:

"""

Hessian_T = np.linalg.inv(hessian(f, x))

H_G = np.matmul(Hessian_T, jacobian(f, x))

x_new = x - H_G

print("第1次迭代后的结果为:", x_new)

for i in range(1, iters):

Hessian_T = np.linalg.inv(hessian(f, x_new))

H_G = np.matmul(Hessian_T, jacobian(f, x_new))

x_new = x_new - H_G

print("第"+str(i+1)+"次迭代后的结果为:", x_new)

return x_new

完整版代码

2019.11.20 修改

这两天在看拟牛顿法相关内容的时候，突然发现了牛顿法和梯度下降之间的相关联的地方。当时是越看越奇怪，后来仔细比对了公式。才发现两者之间最大的区别。不多说，先看我的手写稿子。

其实一阶导的牛顿法就是相当于直线方程求零点。梯度下降则是x值逐步往函数最小值方向移动，所以大多数情况下是牛顿法迈的步子大些，也就意味着迭代的次数所需更少。梯度下降公式不是由原有的泰勒展开公式严格推导出来的，牛顿法则是可严格推导出来。我当时就是在这两步犯了迷糊。

这张图则是很形象的描述了它们的迭代轨迹。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Android openGL渲染rgba数组 opengl渲染顺序

下一篇：zookeeper docker配置日志级别 zookeeper 启动日志

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python牛顿下降法解决优化问题 牛顿法 python

python牛顿下降法解决优化问题 牛顿法 python

51CTO博客

python牛顿下降法解决优化问题牛顿法 python

python牛顿下降法解决优化问题牛顿法 python