第五章讲了建模时的误差来源。模型的误差主要来自偏差(bias)和方差(variance)。其中偏差是预测值相对真实值的偏离程度,方差指预测值的离散程度,两者区别可以用如下图片具体说明:

典型偏差 非典型偏差 计算 典型偏差与非典型偏差_过拟合

         我们一般通过选取样本点来拟合曲线,由于样本选择的随机性,得到的拟合曲线也有所不同,因此通常多选几组样本得到多条拟合曲线,将这些曲线进行平均,最后得到的曲线就趋近于真实曲线。

        在曲线拟合过程中,会涉及到模型拟合次数的问题。拟合次数越高,模型越复杂。通常来讲,简单的模型bias较大,但variance较小,容易导致欠拟合;而复杂的模型bias较小,variance较大,容易导致过拟合。针对欠拟合情况,应采取的措施为:1.输入更多数据特征,2.选取更复杂的模型。针对过拟合情况,应采取的措施为:1.增加数据样本,2.将系数进行正则化处理。

        曲线拟合的目标是将模型对所有数据的预测误差降到最低,实际操作中,即是最小化testing error。由于模型选取过程中存在bias和variance的权衡,总误差 = bias^2 + variance, 任何一个过大都会导致较大的预测误差。因此要通过调整模型参数找出testing error最小的曲线。常用操作是,将训练集划分为training set和validation set。其中training set用于训练一组模型,validation set用于选择最佳模型。

第六章讲了梯度下降(Gradient Descent)。梯度下降是选取最优参数时常用的计算方法。主要计算步骤如下图所示:

典型偏差 非典型偏差 计算 典型偏差与非典型偏差_拟合_02

 选取适当的学习率(即步长),在各点梯度下降最快的方向前进一步,最终会逼近全局最优点。由于接近最优点时,梯度下降通常会变慢,因此该降低学习率。通常使用Adagrad方法降低学习率,步骤如下:

典型偏差 非典型偏差 计算 典型偏差与非典型偏差_过拟合_03