GPU玩转大模型

转载

epeppanda 2024-12-06 14:20:15

文章标签 GPU玩转大模型人工智能梯度更新算法 GPU 实例化 文章分类 游戏开发

目标

知道Pytorch中Module的使用方法
知道Pytorch中优化器类的使用方法
知道Pytorch中常见的损失函数的使用方法
知道如何在GPU上运行代码
能够说出常见的优化器及其原理

1. Pytorch完成模型常用API

在前一部分，我们自己实现了通过torch的相关方法完成反向传播和参数更新【PyTorch手动实现线性回归】，在pytorch中预设了一些更加灵活简单的对象，让我们来构造模型、定义损失，优化损失等

那么接下来，我们一起来了解一下其中常用的API

1.1 nn.Module

nn.Module 是torch.nn提供的一个类，是pytorch中我们自定义网络的一个基类，在这个类中定义了很多有用的方法，让我们在继承这个类定义网络的时候非常简单

当我们自定义网络的时候，有两个方法需要特别注意：

__init__需要调用super方法，继承父类的属性和方法
forward方法必须实现，用来定义我们的网络的向前计算的过程

用前面的y = wx+b的模型举例如下：

from torch import nn 
class Lr(nn.Module):
    def __init__(self):
        super(Lr, self).__init__() # 继承父类init的参数
        self.linear = nn.Linear(1, 1) # 1输入，1输出
 
    def forward(self, x):
        out = self.linear(x)
        return out

注意：

nn.Linear为torch预定义好的线性模型，也被称为全链接层，传入的参数为输入的数量，输出的数量(in_features, out_features)，是不算(batch_size的列数)
nn.Module定义了__call__方法，实现的就是调用forward方法，即Lr的实例，能够直接被传入参数调用，实际上调用的是forward方法并传入参数

# 实例化模型
model = Lr()

# 传入数据，计算结果(见注意2.)
predict = model(x)

注：如果模型结构比较简单，在forward函数中没有很复杂的操作。这时可以用nn.Sequential来构建模型，nn.Sequential会自动完成forward函数的创建。

model = nn.Sequential(nn.Linear(2,64), nn.Linear(64, 1))

1.2 优化器类

优化器(optimizer)，可以理解为torch为我们封装的用来进行更新参数的方法，比如常见的随机梯度下降(stochastic gradient descent, SGD)

优化器类都是由torch.optim提供的，例如:

torch.optim.SGD(参数, 学习率)
torch.optim.Adam(参数, 学习率)

注意：

参数可以使用model.parameters()来获取，获取模型中所有requires_grad=True的参数
优化类的使用方法

实例化
所有参数的梯度，将其值置为0
反向传播计算梯度
更新参数值

示例如下：

optimizer = optim.SGD(model.parameters(), lr=1e-3) #1. 实例化
optimizer.zero_grad() #2. 梯度置为0
loss.backward() #3. 计算梯度
optimizer.step() #4. 更新参数的值

1.3 损失函数

前面的例子是一个回归问题，torch中也预测了很多损失函数

均方误差：nn.MSELoss()，常用于回归问题
交叉熵损失：nn.CrossEntropyLoss()，常用于分类问题

使用方法：

model = Lr() #1. 实例化模型
criterion = nn.MSELoss() #2. 实例化损失函数
optimizer = optim.SGD(model.parameters(), lr=1e-3) #3. 实例化优化器类
for i in range(100):
    y_predict = model(x_true) #4. 向前计算预测值
    loss = criterion(y_true,y_predict) #5. 调用损失函数传入真实值和预测值，得到损失结果
    optimizer.zero_grad() #5. 当前循环参数梯度置为0
    loss.backward() #6. 计算梯度
    optimizer.step() #7. 更新参数的值

1.4 线性回归完整代码

import torch
from torch import nn
from torch import optim
import numpy as np
from matplotlib import pyplot as plt

# 1. 定义数据
x = torch.rand([50,1])
y = x*3 + 0.8
 
#2 .定义模型
class Lr(nn.Module):
    def __init__(self):
        super(Lr,self).__init__()
        self.linear = nn.Linear(1,1)
 
    def forward(self, x):
        out = self.linear(x)
        return out
 
# 2. 实例化模型，loss，和优化器
model = Lr()
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=1e-3)
 
#3. 训练模型
for i in range(30000):
    out = model(x) #3.1 获取预测值
    loss = criterion(y,out) #3.2 计算损失
    optimizer.zero_grad() #3.3 梯度归零
    loss.backward() #3.4 计算梯度
    optimizer.step() # 3.5 更新梯度
    if (i+1) % 20 == 0:
          print('Epoch[{}/{}], loss: {:.6f}'.format(i,30000,loss.data))
 
#4. 模型评估 
model.eval（) #设置模型为评估模式，即预测模式
predict = model(x)
predict = predict.data.numpy()
plt.scatter(x.data.numpy(),y.data.numpy(),c="r")
plt.plot(x.data.numpy(),predict)
plt.show()

输出如下：

GPU玩转大模型_人工智能

注意：

model.eval（)表示设置模型为评估模式，即预测模式
model.train(mode=True) 表示设置模型为训练模式
在当前的线性回归中，上述并无区别
但是在其他的一些模型中，训练的参数和预测的参数会不相同，到时候就需要具体告诉程序我们是在进行训练还是预测，比如模型中存在Dropout，BatchNorm的时候

2. 在GPU上运行代码

当模型太大，或者参数太多的情况下，为了加快训练速度，经常会使用GPU来进行训练

此时我们的代码需要稍作调整：

判断GPU是否可用torch.cuda.is_available()

torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
>> device(type='cuda', index=0) #使用gpu
>> device(type='cpu') #使用cpu

把模型参数和input数据转化为cuda的支持类型

model.to(device)
x_true.to(device)

在GPU上计算结果也为cuda的数据类型，需要转化为numpy或者torch的cpu的tensor类型

predict = predict.cpu().detach().numpy()

detach()的效果和data的相似，但是detach()是深拷贝，data是取值，是浅拷贝

修改之后的代码如下：

import torch
from torch import nn
from torch import optim
import numpy as np
from matplotlib import pyplot as plt
import time
 
# 1.定义数据
 
x = torch.rand([50,1])
y = x*3 + 0.8

# 2.定义模型
class Lr(nn.Module):
    def __init__(self):
        super(Lr,self).__init__()
        self.linear = nn.Linear(1,1)

    def forward(self, x):
        out = self.linear(x)
        return out

# 2. 实例化模型，loss，和优化器
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
x,y = (device),(device)

model = Lr().to(device)
criterion = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=1e-3)

#3. 训练模型
for i in range(300):
    out = model(x)
    loss = criterion(y,out)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
 
        if (i+1) % 20 == 0:
            print('Epoch[{}/{}], loss: {:.6f}'.format(i,30000,loss.data))

#4. 模型评估
model.eval（) #
predict = model(x)
predict = predict.cpu().detach().numpy() #转化为numpy数组

plt.scatter(x.cpu().data.numpy(),y.cpu().data.numpy(),c="r")
plt.plot(x.cpu().data.numpy(),predict,)
plt.show()

总结：

GPU玩转大模型_实例化_02

3. 常见的优化算法介绍

3.1 梯度下降法（batch gradient descent BGD）

每次迭代都需要把所有样本都送入，这样的好处是每次迭代都顾及了全部的样本，做的是全局最优化，但是有可能达到局部最优。（每次迭代用所有训练集计算出来的梯度的均值更新参数）

3.2 随机梯度下降（Stochastic gradient descent SGD）

针对梯度下降算法训练速度过慢的缺点，提出了随机梯度下降算法，随机梯度下降算法算法是从样本中随机抽出一组，训练后按梯度更新一次，然后再抽取一组，再更新一次，在样本量及其大的情况下，可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。（随机的从样本中抽出一个样本进行梯度的更新）

torch中的api为：torch.optim.SGD()

3.3 小批量梯度下降 (Mini-batch gradient descent MBGD）

SGD相对来说要快很多，但是也有存在问题，由于单个样本的训练可能会带来很多噪声，使得SGD并不是每次迭代都向着整体最优化方向，因此在刚开始训练时可能收敛得很快，但是训练一段时间后就会变得很慢。在此基础上又提出了小批量梯度下降法，它是每次从样本中随机抽取一小批进行训练，而不是一组，这样即保证了效果又保证的速度。（找一波数据计算梯度，使用均值更新参数）

3.4 动量法（Momentum）

mini-batch SGD算法虽然这种算法能够带来很好的训练速度，但是在到达最优点的时候并不能够总是真正到达最优点，而是在最优点附近徘徊。

另一个缺点就是mini-batch SGD需要我们挑选一个合适的学习率，当我们采用小的学习率的时候，会导致网络在训练的时候收敛太慢；当我们采用大的学习率的时候，会导致在训练过程中优化的幅度跳过函数的范围，也就是可能跳过最优点。我们所希望的仅仅是网络在优化的时候网络的损失函数有一个很好的收敛速度同时又不至于摆动幅度太大。

所以Momentum优化器刚好可以解决我们所面临的问题，它主要是基于梯度的移动指数加权平均，对网络的梯度进行平滑处理的，让梯度的摆动幅度变得更小。（对梯度进行平滑处理，防止振幅过大）

GPU玩转大模型_实例化_03

GPU玩转大模型_梯度更新算法_04

当前梯度更新值会受之前梯度变化的影响。如果之前梯度值较大（梯度比较陡），当前梯度值会比直接算出来的梯度值大一些；如果之前梯度值较小（梯度比较缓），当前梯度值会比直接算出来的值小一些。

3.5 AdaGrad

AdaGrad算法就是将每一个参数的每一次迭代的梯度取平方累加后在开方，用全局学习率除以这个数，作为学习率的动态更新，从而达到自适应学习率的效果（自适应学习率）

GPU玩转大模型_GPU玩转大模型_05

δ的作用是防止分母为0。

上述算法实现使学习率开始比较大，后来慢慢变小的效果。

3.6 RMSProp

Momentum优化算法中，虽然初步解决了优化中摆动幅度大的问题，为了进一步优化损失函数在更新中存在摆动幅度过大的问题，并且进一步加快函数的收敛速度，RMSProp算法对参数的梯度使用了平方加权平均数。（让梯度或者步长越来越小）

GPU玩转大模型_人工智能_06

梯度变化的两种方式：

动量法：对梯度平滑处理，防止变化太大
RMSProp：对梯度变化除以一个越来越大的值，防止变化过大

也可以理解为是对AdaGrad的进一步优化，对梯度累积量的平滑处理：

GPU玩转大模型_GPU_07

3.7 Adam（Adaptive Moment Estimation）

Adam算法是将Momentum算法和RMSProp算法结合起来使用的一种算法，能够达到防止梯度的摆幅过大，同时还能够加快收敛速度。（动量法+RMSProp，学习率能够自适应，梯度的振幅不会过大）

GPU玩转大模型_GPU玩转大模型_08

torch中的api为：torch.optim.Adam()

3.8 效果演示

GPU玩转大模型_GPU_09

GPU玩转大模型_人工智能_10

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：pytorch多卡训练numworkers

下一篇：鸿蒙组件架构思路图

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯