机器学习:回归

确定选用模型的类别

如果对于需要探究的问题,只有一个影响因素(又叫特征),则可以采用一元线性模型

LIME回归_拟合

如果有多个影响因素(多个特征),则考虑多元线性模型。

评判模型的好坏

损失函数(Loss function):求原始数据标签值与模型预测值的差,来判定模型的好坏。

损失函数越小,模型的预测值与真实值的吻合程度越高。

筛选最优模型的方法

为了获得最小的损失函数,我们可以使用梯度下降的方法。

  • 首先在损失函数上取一个初始值,从初始值所在的位置开始,往梯度下降的方向行进,每次运动一个步长的距离(步长通过学习率确定),不断前进直至找到最低点。
  • 梯度下降法在实际中可能会遇到找到的局部最优不是全局最优的情况,这在一定情况下与步长相关——当步长过小时,会困于局部最优;但如果步长设置过大,会出现无法收敛的情况。因此步长的选择也是很重要的。
  • 在选择线性模型时,如果一元低次线性模型的效果不佳,可以考虑一元多次方程构建模型。
过拟合问题
  • 根据上一点,如果我们选取了一元多次的复杂模型之后,随着模型越来越复杂,其对于训练集的拟合效果一般而言是越来越高的,但这种表面上的拟合良好可能是一种过拟合,即仅仅是对训练集的拟合效果较好,但对测试集的拟合效果不佳。
优化思路
  1. 可以考虑不同的特征,综合所有的特征得出新的模型。这在一定程度上会使模型变得复杂。
  2. 可以选取更多的特征,并采用更多的参数
  3. 加入正则化,一定程度上消除过拟合