pytorch怎么查看梯度 pytorch梯度裁剪

转载

mob6454cc6bcf40 2023-09-21 06:25:10

文章标签 pytorch怎么查看梯度深度学习人工智能神经网络网络层 文章分类 PyTorch 人工智能

注：原文为：。

1、梯度剪裁的原因

2、梯度裁剪的使用

2.1、固定阈值剪裁

2.2、根据参数的范数来衡量的

3、梯度裁剪的使用位置

梯度剪裁，一种避免梯度爆炸的方式。

1、梯度剪裁的原因

神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸，那么就是学过了，会直接跳过最优解。例如：在反向传播中，假设第一层倒数乘以权重> 1，随着向前网络的传播的层数越多，梯度可能会越来越大。（梯度消失相反）所以需要梯度裁剪，避免模型越过最优点。

下图，摘抄自：

pytorch怎么查看梯度 pytorch梯度裁剪_深度学习

当然出现这种情况，其中一种解决方法是，将学习率α设小一点，如0.0001。也是可以缓解的。

2、梯度裁剪的使用

常见的梯度裁剪有两种：

1）确定一个范围，如果参数的gradient超过了，直接裁剪；

2）根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪。

分别对应pytorch中两个函数。

2.1、固定阈值剪裁

torch.nn.utils.clip_grad_value_(parameters, clip_value)

最简单粗暴的方法，设定阈值，当梯度小于/大于阈值时，更新的梯度为阈值。下图说明原理：

pytorch怎么查看梯度 pytorch梯度裁剪_网络层_02

优点：简单粗暴缺点：很难找到满意的阈值。

2.2、根据参数的范数来衡量的

torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)

这个函数是根据参数的范数来衡量的。

Parameters:

parameters (Iterable[Variable]) – 一个基于变量的迭代器，会进行归一化；
max_norm (float or int) – 梯度的最大范数；
norm_type(float or int) – 规定范数的类型，默认为L2。

Returns:参数的总体范数（作为单个向量来看）

下图，摘抄自：

pytorch怎么查看梯度 pytorch梯度裁剪_人工智能_03

3、梯度裁剪的使用位置

在backward得到梯度之后，step()更新之前，使用梯度剪裁。从而完成计算完梯度后，进行裁剪，然后进行网络更新的过程。

import torch.nn as nn
 
outputs = model(data)
loss= loss_fn(outputs, target)
optimizer.zero_grad()
loss.backward()
nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)#使用第二种裁剪方式。
optimizer.step()

评论：第二种梯度裁剪方式在范数超标的时候，乘以了一个小于1的系数，这个系数的确很像学习率，学习率也是乘以梯度，只是说学习率可能是随着过程在变化，而则这里的小于1的系数会盯着梯度而变换。

1、梯度剪裁的原因

2、梯度裁剪的使用

2.1、固定阈值剪裁

2.2、根据参数的范数来衡量的

3、梯度裁剪的使用位置

梯度剪裁，一种避免梯度爆炸的方式。

1、梯度剪裁的原因

下图，摘抄自：

pytorch怎么查看梯度 pytorch梯度裁剪_深度学习

当然出现这种情况，其中一种解决方法是，将学习率α设小一点，如0.0001。也是可以缓解的。

2、梯度裁剪的使用

常见的梯度裁剪有两种：

1）确定一个范围，如果参数的gradient超过了，直接裁剪；

2）根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪。

分别对应pytorch中两个函数。

2.1、固定阈值剪裁

torch.nn.utils.clip_grad_value_(parameters, clip_value)

最简单粗暴的方法，设定阈值，当梯度小于/大于阈值时，更新的梯度为阈值。下图说明原理：

pytorch怎么查看梯度 pytorch梯度裁剪_网络层_02

优点：简单粗暴缺点：很难找到满意的阈值。

2.2、根据参数的范数来衡量的

torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)

这个函数是根据参数的范数来衡量的。

Parameters:

parameters (Iterable[Variable]) – 一个基于变量的迭代器，会进行归一化；
max_norm (float or int) – 梯度的最大范数；
norm_type(float or int) – 规定范数的类型，默认为L2。

Returns:参数的总体范数（作为单个向量来看）

下图，摘抄自：

pytorch怎么查看梯度 pytorch梯度裁剪_人工智能_03

3、梯度裁剪的使用位置

在backward得到梯度之后，step()更新之前，使用梯度剪裁。从而完成计算完梯度后，进行裁剪，然后进行网络更新的过程。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java继承题 java继承知识点

下一篇：Android接入 rabbitmq android接入支付宝

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯