批梯度下降

批量梯度下降的优势

计算效率高:正如您可能已经猜到的,此技术的计算要求较低,因为每个样本后都不需要更新。

稳定收敛:另一个优点是权重到最佳权重的收敛非常稳定。通过对数据集中每个样本的所有单独梯度进行计算和平均,我们可以得到对真实梯度的很好估计,表明损失函数的最大增加。

Barch梯度下降的缺点

学习速度较慢:批量梯度下降的缺点是学习过程慢得多,因为在处理了N个样本后,我们仅执行一次更新。

局部极小值和鞍点:另一个缺点是,在学习过程中,我们会陷入损失函数的局部最小值,而永远无法达到神经网络获得最佳结果的全局最优值。这是因为我们计算的梯度大致相同。实际上,我们实际上需要的是一些嘈杂的渐变。方向值的这种小偏差将使梯度跳出损失函数的局部最小值,并朝着全局最小值继续更新。另一方面,干净的渐变更容易陷入局部最小值。

随机梯度下降

随机梯度下降的优点

立即的性能洞察力:随机梯度下降立即使我们可以洞悉神经网络的性能,因为在这种情况下,我们不必等到数据集结束。

更快的学习:因此,由于在处理每个数据实例之后执行更新,因此随机梯度下降可能会导致学习更快。

随机梯度下降的缺点

嘈杂的梯度:与批次梯度下降相反,在该批次梯度下降中,我们对梯度求平均以得到一个最终梯度,在随机梯度下降中,我们使用每个单个梯度来更新权重。这些梯度可能非常嘈杂,并且其方向和值存在很大差异。意思是我们在每个样本上计算出的梯度仅仅是对真实梯度的粗略估计,它指向损失函数的增加。换句话说,在这种情况下,我们会有很多噪音。但是,此事实可以避免训练过程中的局部最小值,因为高方差可能会导致梯度跳出局部最小值。

计算密集型:随机梯度下降的计算强度比批量梯度下降大得多,因为在这种情况下,我们更频繁地执行权重更新。

无法解决整体最小值:另一个缺点可能是梯度下降无法解决损失函数的整体最小值。由于嘈杂,将很难找到并保持在全局最小值。

小批梯度下降

小批量梯度下降的优势

计算效率:就计算效率而言,此技术介于之前介绍的两种技术之间。

稳定的收敛:另一个优点是朝着全局最小值收敛更稳定,因为我们计算了n个样本的平均梯度,从而减少了噪声。

更快的学习:在这种情况下,与随机梯度下降相比,我们执行权重更新的频率更高,因此可以更快地学习。

小批量梯度下降的缺点

新的超参数:此技术的一个缺点是在小批量梯度下降中引入了一个新的超参数n,称为小批量大小。已经表明,学习率之后的小批量大小是神经网络整体性能的第二重要的超参数。因此,有必要花一些时间并尝试许多不同的批次大小,直到找到与其他参数(例如学习率)最匹配的最终批次大小。