Julia：Flux.jl 中的网络更新优化器参数解释

原创

强劲九 2022-05-14 14:20:13 博主文章分类：人工智能 ©著作权

文章标签 机器学习数学 julia 深度学习神经网络 文章分类 OpenStack 云计算

©著作权归作者所有：来自51CTO博客作者强劲九的原创作品，请联系作者获取转载授权，否则将追究法律责任

Flux.jl 中网络参数的更新方法为 update!(opt, p, g)，update!(opt, ps::Params, gs)，其中 p 或者 ps 是网络的参数，g 和 gs 是参数对应的梯度。网络参数更新的优化器有很多的选择，但是大部分都是 Adam 算法的变种或者优化，下面是关于这些优化器的一些介绍和参数的意义，详细的可以去看不同算法的论文深入了解。

1、：最原始的梯度下降优化器，参数为学习率。对于每一个参数以及对应的梯度，会执行 .

2、：带有动量的梯度下降算法。控制梯度下降在主要方向上的加速度，可以看成是一个阻尼。

3、：带有 Nesterov 动量的梯度下降算法。控制梯度下降在主要方向上的加速度，可以看成是一个阻尼。

4、：RMSProp 算法，通常在循环网络上使用，除了学习率之外其他的参数通常不用调参。

5、：ADAM 算法，为动量的衰减系数，是一个 Tuple 分别为第一个（）和第二个（）动量估计的指数衰减。

6、：Rectified ADAM 算法。

7、：基于范数的 ADAM 变种

8、：ADAGrad 算法，它具有基于其更新频率的参数特定学习率。所有的参数都不需要调整。

9、：ADADelta 是 ADAGrad 的一个版本，它根据过去的梯度更新窗口调整其学习率。参数不需要调整。是梯度在每个时间步衰减的因子。

10、：ADAM 优化器的 AMSGrad 版本。参数不需要调整。

11、：ADAM 优化器的 Nesterov 版本。参数不需要调整

12、：ADAMW 是修正其权重衰减正则化的 ADAM 的变体。decay 参数在优化期间应用于权重的衰减。