记录TensorFlow听课笔记
文章目录
- 记录TensorFlow听课笔记
- 一,梯度下降法:求解函数极值问题
- 二,梯度下降法的优化
多层神经网络——非线性分类问题
损失函数不是凸函数,很难计算解析解
通常采用梯度下降法,得到数值解
一,梯度下降法:求解函数极值问题
批量梯度下降
随机梯度下降
小批量梯度下降
由所有样本确定梯度方向
每一步都是准确地向着极值点趋近,迭代次数少
收敛于全局极小值或局部极小值点
可以利用向量运算进行并行计算
计算量大,训练时间长,不适合大规模数据集
随机梯度下降
随机梯度下降通常是指小批量梯度下降算法
每次迭代只选择一个样本训练模型,使网络的输出尽可能逼近这个样本的标签值
一轮:使用所有样本训练一遍
反复训练多轮,直到网络对所有样本的误差足够小
参数更新非常频繁,无法快速收敛
不易于实现并行计算
小批量梯度下降和小批量随机梯度下降
把数据分为多个小批量,每次迭代使用一个小批量来训练模型
个小批量中的所有样本共同决定了本次迭代中的梯度方向
一轮:使用所有小批量训练一遍
需要训练多轮,使网络对所有样本的误差足够小
每次迭代的训练样本数固定,与整个训练集的样本数量无关
可以实现并行运算
训练大规模数据集
小批量梯度下降
小批量样本计算出的梯度和使用全体样本计算出的标准梯度之间存在偏差
总体向最优化的方向前进
提高模型的泛化能力
二,梯度下降法的优化
影响小批量梯度下降法的主要因素
小批量样本的选择
批量大小
学习率
梯度
多层神经网络使用梯度下降法,无法保证一定可以收敛于全局最小值点。
小批量样本的选择
学习率