Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码

原创

小殊小殊 2024-04-11 10:35:42 博主文章分类：深度学习优化器 ©著作权

文章标签 人工智能 pytorch 深度学习迭代牛顿法 文章分类 文心一言 AIGC

©著作权归作者所有：来自51CTO博客作者小殊小殊的原创作品，请联系作者获取转载授权，否则将追究法律责任

写在前面

一、牛顿法

1.看图理解牛顿法

2.公式推导-三角函数

3.公式推导-二阶泰勒展开

二、BFGS公式推导

三、L-BFGS

四、算法迭代过程

五、代码实现

1.torch.optim.LBFGS说明

2.使用LBFGS优化模型

优化器系列文章列表

Pytorch优化器全总结（一）SGD、ASGD、Rprop、Adagrad

Pytorch优化器全总结（二）Adadelta、RMSprop、Adam、Adamax、AdamW、NAdam、SparseAdam

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码

Pytorch优化器全总结（四）常用优化器性能对比含代码

写在前面

这篇文章是优化器系列的第三篇，主要介绍牛顿法、BFGS和L-BFGS，其中BFGS是拟牛顿法的一种，而L-BFGS是对BFGS的优化，那么事情还要从牛顿法开始说起。

一、牛顿法

函数最优化算法方法不唯一，其中耳熟能详的包括梯度下降法，梯度下降法是一种基于迭代的一阶优化方法，优点是计算简单；牛顿法也是一种很重要的优化方法，是基于迭代的二阶优化方法，优点是迭代次数少，收敛速度很快。下面我们简要介绍一下牛顿法。

1.看图理解牛顿法

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_人工智能

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_深度学习_02

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_迭代_03

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_人工智能_04

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_迭代_05

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_人工智能_06

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_深度学习_07

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_牛顿法_08

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_深度学习_09

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_人工智能_10

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_迭代_11

Pytorch说明文档：LBFGS — PyTorch 1.13 documentation

'''

lr (float): 学习率 (default: 1)

max_iter (int): 每个优化步骤的最大迭代次数，就像图3那样迭代 (default: 20)

max_eval（int): 每次优化函数计算的最大数量，使用了线搜索算法时，每次迭代计数器可能增加不止1，最好使用线搜索算法时再设置这个参数。计数器同时受max_iter 和max_eval约束，先到哪个值直接跳出迭代。(default: max_iter * 1.25).

tolerance_grad (float): 一阶最优终止公差，就是指yn (default: 1e-5).

tolerance_change (float): 函数值/参数变化的终止容差,就是指sn (default: 1e-9).

history_size (int): 更新历史记录大小 (default: 100).

line_search_fn (str): 使用线搜索算法，只能是'strong_wolfe' 或者None (default: None).

'''

class torch.optim.LBFGS(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)

2.使用LBFGS优化模型

我们用一个简单的全连接网络并使用LBFGS优化，下面是代码和运行结果，可以看到，损失下降的速度还是很快的。

# coding=utf-8
#================================================================
#
#   File name   : optim_duibi.py
#   Author      : Faye
#   Created date: 2022/8/26 17:30
#   Description :
#
#================================================================
 
import torch
import torch.utils.data as Data
import torch.nn.functional as F
from torch.autograd import Variable
import matplotlib.pyplot as plt
 
# 超参数
LR = 0.01
BATCH_SIZE = 32
EPOCH = 12
 
# 生成假数据
# torch.unsqueeze() 的作用是将一维变二维，torch只能处理二维的数据
x = torch.unsqueeze(torch.linspace(-1, 1, 1000), dim=1)  # x data (tensor), shape(100, 1)
# 0.2 * torch.rand(x.size())增加噪点
y = x.pow(2) + 0.1 * torch.normal(torch.zeros(*x.size()))
 
# 定义数据库
dataset = Data.TensorDataset(x, y)
 
# 定义数据加载器
loader = Data.DataLoader(dataset=dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=0)
 
 
# 定义pytorch网络
class Net(torch.nn.Module):
    def __init__(self, n_features, n_hidden, n_output):
        super(Net, self).__init__()
        self.hidden = torch.nn.Linear(n_features, n_hidden)
        self.predict = torch.nn.Linear(n_hidden, n_output)
 
    def forward(self, x):
        x = F.relu(self.hidden(x))
        y = self.predict(x)
        return y
 
# 定义不同的优化器网络
net_LBFGS = Net(1, 10, 1)
 
# 选择不同的优化方法
opt_LBFGS = torch.optim.LBFGS(net_LBFGS.parameters(), lr=LR, max_iter=20)
 
nets = [net_LBFGS]
optimizers = [opt_LBFGS]
 
# 选择损失函数
loss_func = torch.nn.MSELoss()
 
# 不同方法的loss
loss_LBFGS = []
 
# 保存所有loss
losses = [loss_LBFGS]
 
# 执行训练
for epoch in range(EPOCH):
    for step, (batch_x, batch_y) in enumerate(loader):
        var_x = Variable(batch_x)
        var_y = Variable(batch_y)
        for net, optimizer, loss_history in zip(nets, optimizers, losses):
            if isinstance(optimizer, torch.optim.LBFGS):
                def closure():
                    y_pred = net(var_x)
                    loss = loss_func(y_pred, var_y)
                    optimizer.zero_grad()
                    loss.backward()
                    return loss
                loss = optimizer.step(closure)
            else:
                # 对x进行预测
                prediction = net(var_x)
                # 计算损失
                loss = loss_func(prediction, var_y)
                # 每次迭代清空上一次的梯度
                optimizer.zero_grad()
                # 反向传播
                loss.backward()
                # 更新梯度
                optimizer.step()
            # 保存loss记录
            loss_history.append(loss.data)
 
# 画图
labels = ['LBFGS']
for i, loss_history in enumerate(losses):
    plt.plot(loss_history, label=labels[i])
plt.legend(loc='best')
plt.xlabel('Steps')
plt.ylabel('Loss')
plt.ylim((0, 0.2))
plt.show()

牛顿法、BFGS和L-BFGS就介绍到这里，后面我将对比所有优化算法的性能，收藏关注不迷路。

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码_人工智能_12