cnn网络图像识别中adam优化函数怎么用 adam优化算法理解

转载

mob64ca14173efa 2024-03-25 22:46:20

由于训练时间短，越来越多人使用自适应梯度方法来训练他们的模型，例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越，但Adam和其他自适应优化方法与随机梯度下降(SGD)相比，有时的效果并不好。这些方法在训练数据上表现良好，但在测试数据却差很多。

最近，许多研究人员已经开始针对这个问题进行研究，尤其是我们最常用的Adam。本篇文章将试着理解一下这些研究结果。

cnn网络图像识别中adam优化函数怎么用 adam优化算法理解_梯度下降

Adam收敛速度更快，但最终的结果却并不好！

为了充分理解这一说法，我们先看一看ADAM和SGD的优化算法的利弊。

传统的梯度下降是用于优化深度学习网络的最常见方法。该技术在1950年代首次提出，可以通过观察参数变化如何影响目标函数，选择一个降低错误率的方向来更新模型的每个参数，并且可以进行继续迭代，直到目标函数收敛到最小值。

cnn网络图像识别中adam优化函数怎么用 adam优化算法理解_最小值_02

SGD是梯度下降的一种变体。SGD并不对整个数据集执行计算——而是只对随机选择的数据示例的一个小子集进行计算。在学习率较低的情况下，SGD的性能与常规梯度下降相同。

Adam的优化方法根据对梯度的一阶和二阶的估计来计算不同参数的个体自适应学习率。它结合了RMSProp和AdaGrad的优点，对不同的参数计算个别的自适应的学习率。与RMSProp中基于平均第一阶矩(平均值)来调整参数学习率不同，Adam还使用了梯度的第二阶矩(非中心方差)的平均值。

cnn网络图像识别中adam优化函数怎么用 adam优化算法理解_梯度下降_03

上图来自cs231n，根据上面的描述Adam能迅速收敛到一个“尖锐的最小值”，而SGD计算时间长步数多，能够收敛到一个“平坦的最小值”，并且测试数据上表现良好。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客