Adam是1997年提出的优化算法,在深度学习领域应用广泛。
Adam与经典的随机梯度下降法是不同的。经典随机梯度下降保持一个单一的学习速率(称为alpha),用于所有的权重更新,并且在训练过程中学习速率不会改变。而在Adam中,每一个网络权重(参数)都保持一个学习速率,并随着学习的展开而单独地进行调整。该方法通过梯度的一阶矩和二阶矩来计算不同参数的自适应学习速率。
Adam算法结合AdaGrad(自适应梯度算法)和RMSProp(均方根传播)算法的优势,也可以看做是RMSProp算法与动量法的结合。
在理解Adam算法之前,我们应该先来了解指数加权移动平均法和动量法,这是理解Adam的前提。

1.指数加权移动平均

加权移动平均法,是对观察值分别给予不同的权数,按不同权数求得移动平均值,并以最后的移动平均值为基础,确定预测值的方法。采用加权移动平均法,是因为观察期的近期观察值对预测值有较大影响,它更能反映近期变化的趋势。

 指数加权移动平均法,是指各数值的加权系数随时间呈指数式递减,越靠近当前时刻的数值加权系数就越大。

 指数移动加权平均较传统的平均法来说,一是不需要保存过去所有的数值;二是计算量显著减小。

 其表达式为

LSTM优化 pytorch lstm优化器adam_深度学习


其中, θt 为时刻 t 的实际观测值;系数 β 表示加权下降的速率,其值越小下降的越快;vt 为 t 时刻指数加权移动平均的值。

我们将其展开来写

V0=0

V1= β *V0 + (1- β) *𝜃1

V2= β *V1 + (1- β) *𝜃2

……

Vt= β *Vt-1 + (1- β) *𝜃𝑡

Vt= (1- β) *𝜃𝑡 + β *((1- β) *𝜃𝑡-1 + β *((1- β) 𝜃𝑡-2 + β Vt-3))
= (1- β) 𝜃𝑡 + 0.1 β 𝜃𝑡-1 + 0.1"β" ^2𝜃𝑡-2 +…+ 0.1
"β" ^(𝑡−1)*𝜃1

= (1- β) *(𝜃𝑡 + β 𝜃𝑡-1 + “β” ^2𝜃𝑡-2 + … + “β” ^(𝑡−1)*𝜃1 )

显然,数值的加权系数随着时间呈指数下降。

那么,指数加权移动平均的究竟有多少项?

在数学中一般会以 1/e 来作为一个临界值,小于该值的加权系数的值不作考虑.

如:β=0.9 和 β=0.98 的情况

当 β=0.9 时, 0.9^10 约等于 1/e ,因此认为此时是近10个数值的加权平均。

 当 β=0.98 时, 0.98^50 约等于 1/e,此时是近50个数值的加权平均。这种情况也正是移动加权平均的来源。

 也就是说,我们计算的是前1/(1−β)个数据的平均值。

但是,同样该方法有一个问题:当V0=0,即初始值取为0时,对应的V1= β *V0 + (1- β) *𝜃1= (1- β) *𝜃1,V1不准;
举个例子:

β=0.98, V0=0
V1= 0.02𝜃1 (V1不准)
V2= 0.98 V1 + 0.02𝜃2(V2不准)
= 0.98
0.02𝜃1+0.02𝜃2
=0.0196𝜃1+0.02𝜃2

当只有一个观测值时,𝜃1与V1应该很接近,但是因为V0=0 ,此时V1是𝜃1的1/50,V1远远小于𝜃1;因为V1不准,导致V2也不准,这样接下来的每一项都不准,所以我们要进行偏差修正。

偏差修正

LSTM优化 pytorch lstm优化器adam_优化算法_02


我们可以看到,经过偏差修正后,V2几乎是𝜃1与𝜃2的平均了。

2.动量梯度下降法(Momentum)

动量梯度下降算法,简言之就计算梯度的指数加权平均,然后使用这个梯度来更新权重。
我们在使用梯度下降算法更新权重时,希望损失函数能减小至最小,下面是损失函数的横截面图,红点表示最小值(最优值)。

LSTM优化 pytorch lstm优化器adam_深度学习_03


图中的蓝线表示损失函数的减小路径,从图中左侧的蓝点出发,逐步靠近图中的红点(最小值),我们可以看到随机梯度下降法在更新权重时,在纵轴上(竖直方向)的波动较大,这通常意味着梯度下降的次数较大,那么训练时间会增长;而如果我们采用较大的学习率,则很有可能超出函数范围,为了避免这种情况,倾向使用较小的学习率。

LSTM优化 pytorch lstm优化器adam_权重_04


所以,在纵轴上,我们希望波动小,即学习慢;而在横轴上,希望步子迈的大一些,学习快一些,能尽快到达最小点。

LSTM优化 pytorch lstm优化器adam_LSTM优化 pytorch_05

那么动量梯度下降法的公式为:(对导数采用指数滑动平均)即

LSTM优化 pytorch lstm优化器adam_深度学习_06


dw表示导数,Vdw表示动量。横轴代表参数W,纵轴代表参数b,

在纵轴上,对梯度进行平均,则正负数相抵消,平均值接近0.

在横轴上,所有微分都指向横轴方向,所以横轴上的平均值较大。

所以,横轴方向运动更快,纵轴摆动幅度变小。

动量法可以解决SGD优化算法更新幅度摆动大的问题,同时可以使得网络的收敛速度更快。

3.AdaGrad(自适应梯度算法)

Momentum梯度下降法,每次学习用的都是一样的学习率,但是在训练过程中每个参数的重要性是不同的,此时如果用同样的学习率进行更新的话,就会出现误差。这时候我们就需要使用不同的学习率动态地更新参数。

那么,给学习率除以一个不断变化的数,那么学习率就会动态地发生变化。

LSTM优化 pytorch lstm优化器adam_深度学习_07


S是储存梯度平方和的变量,𝜖是为了避免s=0时分母为零的情况(一般取值10^(−8)),𝛼为全局的学习率。

随着学习的过程,学习率是一直在动态的变化,对于梯度较大的参数,学习率较小,从而延缓网络的训练。但是AdaGrad容易受到过去梯度的影响,陷入“过去“无法自拔,因为梯度很容易就会累积到一个很大的值,此时学习率就会被降低的很厉害,因此AdaGrad很容易过分的降低学习率使训练提前停止。

4.RMSProp(root mean square prop)

为了解决AdaGrad随着训练周期的增长,学习率降低的很快的问题。RMSProp算法就在AdaGrad基础上引入了衰减因子𝛽。

LSTM优化 pytorch lstm优化器adam_深度学习_08


横轴代表参数W(步幅),纵轴代表参数b(波动)

w在横轴上变化率很小,所以𝑑𝑤的值很小;b在纵轴上波动很大,𝑑𝑏较大.

但是,我们希望W的变化较大,b变化较小。

d𝑤 除以一个较小的数, W的变化就会变大,所以横向运动更快;而𝑑𝑏 除以一个较大的数,b的更新就会被减缓,所以纵向的变化相对平缓.

5.Adam

在深度学习的历史上,包括许多研究者在内提出了优化算法,并很好的解决了一些问题。但随后这些优化算法被指出并不能一般化,不能适用于多种神经网络。时间久了,深度学习圈子里的人开始多少有些质疑全新的算法。很多人觉得动量下降算法很好用,很难找到更优化的算法了。所以RMSProp和Adam算法是少有的经受人们质疑的2种算法,已被证实可以适用不同的深度学习结构。

Adam(Adaptive Moment Estimation)是另一种自适应学习率的方法。它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳.

LSTM优化 pytorch lstm优化器adam_深度学习_09