批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法

转载

mob64ca13feda16 2024-04-16 15:51:50

记录TensorFlow听课笔记

多层神经网络——非线性分类问题
损失函数不是凸函数，很难计算解析解 
通常采用梯度下降法，得到数值解

批量梯度下降 
随机梯度下降 
小批量梯度下降

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_梯度下降法

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_随机梯度下降_02

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_随机梯度下降_03

由所有样本确定梯度方向 
每一步都是准确地向着极值点趋近，迭代次数少 
收敛于全局极小值或局部极小值点 
可以利用向量运算进行并行计算 
计算量大，训练时间长，不适合大规模数据集

随机梯度下降

随机梯度下降通常是指小批量梯度下降算法
每次迭代只选择一个样本训练模型，使网络的输出尽可能逼近这个样本的标签值 
一轮：使用所有样本训练一遍 
反复训练多轮，直到网络对所有样本的误差足够小 
参数更新非常频繁，无法快速收敛
不易于实现并行计算

小批量梯度下降和小批量随机梯度下降

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_迭代_04

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_迭代_05

把数据分为多个小批量，每次迭代使用一个小批量来训练模型 
个小批量中的所有样本共同决定了本次迭代中的梯度方向 
一轮：使用所有小批量训练一遍 
需要训练多轮，使网络对所有样本的误差足够小 
每次迭代的训练样本数固定，与整个训练集的样本数量无关 
可以实现并行运算 
训练大规模数据集

小批量梯度下降

小批量样本计算出的梯度和使用全体样本计算出的标准梯度之间存在偏差 
总体向最优化的方向前进 
提高模型的泛化能力

影响小批量梯度下降法的主要因素

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_迭代_06

小批量样本的选择 
批量大小 
学习率 
梯度

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_梯度下降法_07

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_随机梯度下降_08

多层神经网络使用梯度下降法，无法保证一定可以收敛于全局最小值点。

小批量样本的选择

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_梯度下降法_09

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_迭代_10

学习率

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_迭代_11

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_迭代_12

批量梯度下降法随机梯度下降法小批量梯度下降法小批量梯度下降算法_随机梯度下降_13

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯