注:原文为:。


目录

1、梯度剪裁的原因

2、梯度裁剪的使用

2.1、固定阈值剪裁

2.2、根据参数的范数来衡量的

3、梯度裁剪的使用位置


梯度剪裁,一种避免梯度爆炸的方式。

1、梯度剪裁的原因

神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸,那么就是学过了,会直接跳过最优解。例如:在反向传播中,假设第一层倒数乘以权重> 1,随着向前网络的传播的层数越多,梯度可能会越来越大。 (梯度消失相反)所以需要梯度裁剪,避免模型越过最优点。

下图,摘抄自:

pytorch怎么查看梯度 pytorch梯度裁剪_深度学习

当然出现这种情况,其中一种解决方法是,将学习率α设小一点,如0.0001。也是可以缓解的。

2、梯度裁剪的使用

常见的梯度裁剪有两种:

1)确定一个范围,如果参数的gradient超过了,直接裁剪;

2)根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪。

分别对应pytorch中两个函数。

2.1、固定阈值剪裁

torch.nn.utils.clip_grad_value_(parameters, clip_value)

最简单粗暴的方法,设定阈值,当梯度小于/大于阈值时,更新的梯度为阈值。下图说明原理:

pytorch怎么查看梯度 pytorch梯度裁剪_网络层_02

优点:简单粗暴缺点:很难找到满意的阈值。

2.2、根据参数的范数来衡量的

torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)

这个函数是根据参数的范数来衡量的。

Parameters:

  • parameters (Iterable[Variable]) – 一个基于变量的迭代器,会进行归一化;
  • max_norm (float or  int) – 梯度的最大范数;
  • norm_type(float or int) – 规定范数的类型,默认为L2。

Returns:参数的总体范数(作为单个向量来看)

下图,摘抄自:

pytorch怎么查看梯度 pytorch梯度裁剪_人工智能_03

3、梯度裁剪的使用位置

在backward得到梯度之后,step()更新之前,使用梯度剪裁。从而完成计算完梯度后,进行裁剪,然后进行网络更新的过程。


import torch.nn as nn
 
outputs = model(data)
loss= loss_fn(outputs, target)
optimizer.zero_grad()
loss.backward()
nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)#使用第二种裁剪方式。
optimizer.step()

评论:第二种梯度裁剪方式在范数超标的时候,乘以了一个小于1的系数,这个系数的确很像学习率,学习率也是乘以梯度,只是说学习率可能是随着过程在变化,而则这里的小于1的系数会盯着梯度而变换。


目录

1、梯度剪裁的原因

2、梯度裁剪的使用

2.1、固定阈值剪裁

2.2、根据参数的范数来衡量的

3、梯度裁剪的使用位置


梯度剪裁,一种避免梯度爆炸的方式。

1、梯度剪裁的原因

神经网络是通过梯度下降来学习的。而梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸,那么就是学过了,会直接跳过最优解。例如:在反向传播中,假设第一层倒数乘以权重> 1,随着向前网络的传播的层数越多,梯度可能会越来越大。 (梯度消失相反)所以需要梯度裁剪,避免模型越过最优点。

下图,摘抄自:

pytorch怎么查看梯度 pytorch梯度裁剪_深度学习

当然出现这种情况,其中一种解决方法是,将学习率α设小一点,如0.0001。也是可以缓解的。

2、梯度裁剪的使用

常见的梯度裁剪有两种:

1)确定一个范围,如果参数的gradient超过了,直接裁剪;

2)根据若干个参数的gradient组成的的vector的L2 Norm进行裁剪。

分别对应pytorch中两个函数。

2.1、固定阈值剪裁

torch.nn.utils.clip_grad_value_(parameters, clip_value)

最简单粗暴的方法,设定阈值,当梯度小于/大于阈值时,更新的梯度为阈值。下图说明原理:

pytorch怎么查看梯度 pytorch梯度裁剪_网络层_02

优点:简单粗暴缺点:很难找到满意的阈值。

2.2、根据参数的范数来衡量的

torch.nn.utils.clip_grad_norm(parameters, max_norm, norm_type=2)

这个函数是根据参数的范数来衡量的。

Parameters:

  • parameters (Iterable[Variable]) – 一个基于变量的迭代器,会进行归一化;
  • max_norm (float or  int) – 梯度的最大范数;
  • norm_type(float or int) – 规定范数的类型,默认为L2。

Returns:参数的总体范数(作为单个向量来看)

下图,摘抄自:

pytorch怎么查看梯度 pytorch梯度裁剪_人工智能_03

3、梯度裁剪的使用位置

在backward得到梯度之后,step()更新之前,使用梯度剪裁。从而完成计算完梯度后,进行裁剪,然后进行网络更新的过程。