回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数。

一、算法的推导

1.1 符号规定

xgboost回归模型调参 回归模型参数的意义_机器学习表示数据集第xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_02个数据的第xgboost回归模型调参 回归模型参数的意义_机器学习_03个属性取值,数据集xgboost回归模型调参 回归模型参数的意义_线性回归_04一共有xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_05个数据,xgboost回归模型调参 回归模型参数的意义_算法_06个属性(特征)。

1.2 线性回归模型

模型定义为:xgboost回归模型调参 回归模型参数的意义_机器学习_07

使用矩阵来表示就是xgboost回归模型调参 回归模型参数的意义_深度学习_08,其中:xgboost回归模型调参 回归模型参数的意义_线性回归_09是所要求得一系列参数,xgboost回归模型调参 回归模型参数的意义_线性回归_10是输入的数据矩阵,因为考虑xgboost回归模型调参 回归模型参数的意义_算法_11所以在xgboost回归模型调参 回归模型参数的意义_线性回归_04第一列加上了一列1。xgboost回归模型调参 回归模型参数的意义_线性回归_04的一行可以看做一个完整的输入数据,xgboost回归模型调参 回归模型参数的意义_算法_06代表一个数据有xgboost回归模型调参 回归模型参数的意义_算法_06个属性(特征),xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_05行代表一共是xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_05个数据。数据集标签为xgboost回归模型调参 回归模型参数的意义_算法_18

线性回归模型的目标就是找到一系列参数xgboost回归模型调参 回归模型参数的意义_线性回归_19来使得xgboost回归模型调参 回归模型参数的意义_深度学习_08尽可能地贴近xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_21

具体目标如图找到一条直线使得尽可能符合数据的分布,从而有一个新的样本点时,可利用学习得到的这条直线进行预测。

xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_22

1.3 损失函数

使用均方误差作为损失函数,使用均方误差最小化目标函数的方法称为最小二乘法。

使用均方误差的原因:有十分好的几何意义,对应了常用的欧式距离。在线性回归中,就是找到一个直线,使得所有样本到直线的欧式距离最小。

损失代价函数定义为:xgboost回归模型调参 回归模型参数的意义_线性回归_23

展开后得到:xgboost回归模型调参 回归模型参数的意义_深度学习_24

1.4 损失函数求解

xgboost回归模型调参 回归模型参数的意义_算法_25为满秩矩阵或者正定矩阵时,可使用正规方程法,直接求得闭式解。

xgboost回归模型调参 回归模型参数的意义_深度学习_26,即:xgboost回归模型调参 回归模型参数的意义_机器学习_27,可得:xgboost回归模型调参 回归模型参数的意义_机器学习_28

但一般xgboost回归模型调参 回归模型参数的意义_算法_25不能满足满秩矩阵或者正定矩阵的条件,此时可使用梯度下降法。

梯度下降的迭代更新:

xgboost回归模型调参 回归模型参数的意义_线性回归_30,其中xgboost回归模型调参 回归模型参数的意义_机器学习_31是学习率,是一个梯度下降需要的超参数。

可得到梯度下降迭代过程,即:xgboost回归模型调参 回归模型参数的意义_线性回归_32

二、使用均方误差的解释

先提出两个假设:

  • 假设一:每一个样例xgboost回归模型调参 回归模型参数的意义_线性回归_33xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_34和目标值xgboost回归模型调参 回归模型参数的意义_深度学习_35的关系:xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_36,其中xgboost回归模型调参 回归模型参数的意义_深度学习_37表示$ \theta ^ { T } x ^ { ( i ) }$与目标值的误差。
  • 假设二:xgboost回归模型调参 回归模型参数的意义_深度学习_37服从正态分布:xgboost回归模型调参 回归模型参数的意义_深度学习_39

解释:根据中心极限定理——许多独立随机变量的和趋向于正态分布,因为影响误差的因素有很多,而这些因素都是独立且随机分布的,所得根据此可得假设二。

由此可得:xgboost回归模型调参 回归模型参数的意义_机器学习_40,从而也表示,当给定参数xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_41xgboost回归模型调参 回归模型参数的意义_线性回归_42时,目标值xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_21也服从正态分布,所以有:xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_44

  • 假设三:对于误差xgboost回归模型调参 回归模型参数的意义_深度学习_37,是IID(独立同分布)的随机变量。

根据这些假设,利用极大似然估计,来求解:

似然函数:xgboost回归模型调参 回归模型参数的意义_深度学习_46

对似然函数取对数得:xgboost回归模型调参 回归模型参数的意义_算法_47所以,最大化xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_48等价于最小化xgboost回归模型调参 回归模型参数的意义_线性回归_49,即证得最小二乘法实际上是在假设误差项满足高斯分布且独立同分布情况下,使似然性最大化

三、线性回归的过拟合和欠拟合

解决线性回归过拟合的方法:

  • 分析数据,重新做数据清冼,将征工程。
  • 扩充数据集,收集更多数据。
  • 减少特征数量 。
  • 采用正则化方法
  • L1正则化(Lasso回归):稀疏化模型参数。
  • L2正则化(Rideg/岭回归):缩小模型参数。
  • L1+L2正则化(弹性网络/ElasticNet):xgboost回归模型调参 回归模型参数的意义_线性回归_50

解决线性回归欠拟合的方法:

  • 分析数据,增加特征淮度。
  • 增加多项式特征阶数。
  • 减小正则项的超参系数值。
  • 局部加权回归(详情见第7节)。

四、线性回归计算复杂度

  • 采用批量梯度下降时复杂度:xgboost回归模型调参 回归模型参数的意义_线性回归_51(每次迭代)。
  • 采用随机梯度下降时复杂度:xgboost回归模型调参 回归模型参数的意义_算法_52(1个样本迭代)。
  • 采用批量梯度下降时复杂度:xgboost回归模型调参 回归模型参数的意义_机器学习_53(t个样本迭代)。

五、线性回归的应用场景

  • 自变量和因变量之间是线性关系时
  • 适应于低维数据,而且每一维之间没有共线性(共线性是指变量之间由于存在精确相关关系或高度相关关系使模型准确率失真)

多重共线性影响模型的原因:

设模型为:$Y=\beta_0+\beta_0 x_1 + … + \beta_p x_p + \varepsilon xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_54Y=\beta_0I+X\beta+\varepsilon xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_55I=(1, 1, …, 1)^T,\varepsilon \sim N \left( 0 , \sigma ^ { 2 } I_n \right)$。

设矩阵xgboost回归模型调参 回归模型参数的意义_线性回归_04xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_57形式的,且秩为xgboost回归模型调参 回归模型参数的意义_线性回归_58

xgboost回归模型调参 回归模型参数的意义_深度学习_59的最小二乘估计为xgboost回归模型调参 回归模型参数的意义_深度学习_60,回归系数LS估计为xgboost回归模型调参 回归模型参数的意义_算法_61,因此获得的LS估计是无偏的。

于是$\hat { \beta } xgboost回归模型调参 回归模型参数的意义_线性回归_62\operatorname { MSE } ( \hat { \beta } ) = E ( \hat { \beta } - \beta ) ^ { T } ( \hat { \beta } - \beta )=\sigma2\sum_{i=1}{p}\frac { 1 } { \lambda_i }xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_55\lambda _ { 1 } \geq\lambda _ { 2 } \geq…\geq\lambda _ { p } \geq0xgboost回归模型调参 回归模型参数的意义_线性回归_64XTX$的特征根。如果$XTX$至少有一个特征根非常接近零,则 xgboost回归模型调参 回归模型参数的意义_算法_65就会很大,$\hat { \beta } xgboost回归模型调参 回归模型参数的意义_线性回归_66\beta$的一个好的估计。

并且,若xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_67的某个特征根接近零,就说明矩阵xgboost回归模型调参 回归模型参数的意义_线性回归_04列向量之间(特征间)存在近似的线性关系。

六、线性回归的优缺点

优点

  • 直接。
  • 快速。
  • 可解释性好。

缺点

  • 需要严格的假设。
  • 需处理异常值,对异常值很敏感,对输入数据差异也很敏感。
  • 线性回归存在共线性,自相关,异方差等问题。

七、局部加权线性回归

回归预测模型中,预测模型的准确度特别依赖于特征选择,局部加权线性回归解决了这个问题,预测性能不太依赖于特征选择,又很好避免过拟合,欠拟合风险。

局部加权线性回归是通过引入偏差来降低预测的均方误差,针对不同点能够对误差进行调整便可以一定程度上避免线性回归带来的欠拟合现象。

7.1 局部加权回归的损失函数

xgboost回归模型调参 回归模型参数的意义_深度学习_69,其中xgboost回归模型调参 回归模型参数的意义_深度学习_70采用高斯核时,xgboost回归模型调参 回归模型参数的意义_机器学习_71

7.2 局部加权回归的参数解释

xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_72:波长参数,控制了权值随距离下降速率。
xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_73时,所有权重趋于1,变为标准线性回归;
xgboost回归模型调参 回归模型参数的意义_线性回归_74时,距离较大样本点无法参与回归参数的求取过程,避免造成过拟合。
xgboost回归模型调参 回归模型参数的意义_线性回归_42:要预测的点。
xgboost回归模型调参 回归模型参数的意义_xgboost回归模型调参_76:数据集中点。
当两点越近时,权重w越大,对回归系数贡献越大。该函数形似高斯分布,但没有任何高斯分布意义,是一个非参数学习方法。

7.3 局部加权回归相比线性回归的优缺点

优点:不过分依赖特征选择。
缺点:计算量增大。