xgboost回归模型调参回归模型参数的意义

转载

架构魔法之光 2024-03-26 10:37:21

文章标签 xgboost回归模型调参机器学习深度学习线性回归算法 文章分类 机器学习人工智能

回归是监督学习的一个重要问题，回归用于预测输入变量和输出变量之间的关系，特别是当输入变量的值发生变化时，输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数。

一、算法的推导

1.1 符号规定

$xgboost回归模型调参回归模型参数的意义_机器学习$ 表示数据集第 $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_02$ 个数据的第 $xgboost回归模型调参回归模型参数的意义_机器学习_03$ 个属性取值，数据集 $xgboost回归模型调参回归模型参数的意义_线性回归_04$ 一共有 $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_05$ 个数据， $xgboost回归模型调参回归模型参数的意义_算法_06$ 个属性（特征）。

1.2 线性回归模型

模型定义为： $xgboost回归模型调参回归模型参数的意义_机器学习_07$ 。

使用矩阵来表示就是 $xgboost回归模型调参回归模型参数的意义_深度学习_08$ ，其中： $xgboost回归模型调参回归模型参数的意义_线性回归_09$ 是所要求得一系列参数， $xgboost回归模型调参回归模型参数的意义_线性回归_10$ 是输入的数据矩阵，因为考虑 $xgboost回归模型调参回归模型参数的意义_算法_11$ 所以在 $xgboost回归模型调参回归模型参数的意义_线性回归_04$ 第一列加上了一列1。 $xgboost回归模型调参回归模型参数的意义_线性回归_04$ 的一行可以看做一个完整的输入数据， $xgboost回归模型调参回归模型参数的意义_算法_06$ 代表一个数据有 $xgboost回归模型调参回归模型参数的意义_算法_06$ 个属性（特征）， $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_05$ 行代表一共是 $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_05$ 个数据。数据集标签为 $xgboost回归模型调参回归模型参数的意义_算法_18$ 。

线性回归模型的目标就是找到一系列参数 $xgboost回归模型调参回归模型参数的意义_线性回归_19$ 来使得 $xgboost回归模型调参回归模型参数的意义_深度学习_08$ 尽可能地贴近 $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_21$ 。

具体目标如图找到一条直线使得尽可能符合数据的分布，从而有一个新的样本点时，可利用学习得到的这条直线进行预测。

xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_22

1.3 损失函数

使用均方误差作为损失函数，使用均方误差最小化目标函数的方法称为最小二乘法。

使用均方误差的原因：有十分好的几何意义，对应了常用的欧式距离。在线性回归中，就是找到一个直线，使得所有样本到直线的欧式距离最小。

损失代价函数定义为： $xgboost回归模型调参回归模型参数的意义_线性回归_23$ 。

展开后得到： $xgboost回归模型调参回归模型参数的意义_深度学习_24$

1.4 损失函数求解

当 $xgboost回归模型调参回归模型参数的意义_算法_25$ 为满秩矩阵或者正定矩阵时，可使用正规方程法，直接求得闭式解。

令 $xgboost回归模型调参回归模型参数的意义_深度学习_26$ ，即： $xgboost回归模型调参回归模型参数的意义_机器学习_27$ ，可得： $xgboost回归模型调参回归模型参数的意义_机器学习_28$ 。

但一般 $xgboost回归模型调参回归模型参数的意义_算法_25$ 不能满足满秩矩阵或者正定矩阵的条件，此时可使用梯度下降法。

梯度下降的迭代更新：

$xgboost回归模型调参回归模型参数的意义_线性回归_30$ ，其中 $xgboost回归模型调参回归模型参数的意义_机器学习_31$ 是学习率，是一个梯度下降需要的超参数。

可得到梯度下降迭代过程，即： $xgboost回归模型调参回归模型参数的意义_线性回归_32$ 。

二、使用均方误差的解释

先提出两个假设：

假设一：每一个样例 $xgboost回归模型调参回归模型参数的意义_线性回归_33$ ， $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_34$ 和目标值 $xgboost回归模型调参回归模型参数的意义_深度学习_35$ 的关系： $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_36$ ，其中 $xgboost回归模型调参回归模型参数的意义_深度学习_37$ 表示$ \theta ^ { T } x ^ { ( i ) }$与目标值的误差。
假设二： $xgboost回归模型调参回归模型参数的意义_深度学习_37$ 服从正态分布： $xgboost回归模型调参回归模型参数的意义_深度学习_39$ 。

解释：根据中心极限定理——许多独立随机变量的和趋向于正态分布，因为影响误差的因素有很多，而这些因素都是独立且随机分布的，所得根据此可得假设二。

由此可得： $xgboost回归模型调参回归模型参数的意义_机器学习_40$ ，从而也表示，当给定参数 $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_41$ 和 $xgboost回归模型调参回归模型参数的意义_线性回归_42$ 时，目标值 $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_21$ 也服从正态分布，所以有： $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_44$ 。

假设三：对于误差 $xgboost回归模型调参回归模型参数的意义_深度学习_37$ ，是IID（独立同分布）的随机变量。

根据这些假设，利用极大似然估计，来求解：

似然函数： $xgboost回归模型调参回归模型参数的意义_深度学习_46$ ，

对似然函数取对数得： $xgboost回归模型调参回归模型参数的意义_算法_47$ 所以，最大化 $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_48$ 等价于最小化 $xgboost回归模型调参回归模型参数的意义_线性回归_49$ ，即证得最小二乘法实际上是在假设误差项满足高斯分布且独立同分布情况下，使似然性最大化。

三、线性回归的过拟合和欠拟合

解决线性回归过拟合的方法：

分析数据，重新做数据清冼，将征工程。
扩充数据集，收集更多数据。
减少特征数量。
采用正则化方法

L1正则化（Lasso回归）：稀疏化模型参数。
L2正则化（Rideg/岭回归）：缩小模型参数。
L1+L2正则化（弹性网络/ElasticNet）： $xgboost回归模型调参回归模型参数的意义_线性回归_50$ 。

解决线性回归欠拟合的方法：

分析数据，增加特征淮度。
增加多项式特征阶数。
减小正则项的超参系数值。
局部加权回归（详情见第7节）。

四、线性回归计算复杂度

采用批量梯度下降时复杂度： $xgboost回归模型调参回归模型参数的意义_线性回归_51$ （每次迭代）。
采用随机梯度下降时复杂度： $xgboost回归模型调参回归模型参数的意义_算法_52$ （1个样本迭代）。
采用批量梯度下降时复杂度： $xgboost回归模型调参回归模型参数的意义_机器学习_53$ （t个样本迭代）。

五、线性回归的应用场景

自变量和因变量之间是线性关系时
适应于低维数据，而且每一维之间没有共线性（共线性是指变量之间由于存在精确相关关系或高度相关关系使模型准确率失真）

多重共线性影响模型的原因：

设模型为：$Y=\beta_0+\beta_0 x_1 + … + \beta_p x_p + \varepsilon $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_54$ Y=\beta_0I+X\beta+\varepsilon $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_55$ I=(1, 1, …, 1)^T，\varepsilon \sim N \left( 0 , \sigma ^ { 2 } I_n \right)$。

设矩阵 $xgboost回归模型调参回归模型参数的意义_线性回归_04$ 为 $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_57$ 形式的，且秩为 $xgboost回归模型调参回归模型参数的意义_线性回归_58$ 。

$xgboost回归模型调参回归模型参数的意义_深度学习_59$ 的最小二乘估计为 $xgboost回归模型调参回归模型参数的意义_深度学习_60$ ，回归系数LS估计为 $xgboost回归模型调参回归模型参数的意义_算法_61$ ，因此获得的LS估计是无偏的。

于是$\hat { \beta } $xgboost回归模型调参回归模型参数的意义_线性回归_62$ \operatorname { MSE } ( \hat { \beta } ) = E ( \hat { \beta } - \beta ) ^ { T } ( \hat { \beta } - \beta )=\sigma^2\sum_{i=1}{p}\frac { 1 } { \lambda_i } $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_55$ \lambda _ { 1 } \geq\lambda _ { 2 } \geq…\geq\lambda _ { p } \geq0 $xgboost回归模型调参回归模型参数的意义_线性回归_64$ X^{TX$的特征根。如果$X}TX$至少有一个特征根非常接近零，则 $xgboost回归模型调参回归模型参数的意义_算法_65$ 就会很大，$\hat { \beta } $xgboost回归模型调参回归模型参数的意义_线性回归_66$ \beta$的一个好的估计。

并且，若 $xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_67$ 的某个特征根接近零，就说明矩阵 $xgboost回归模型调参回归模型参数的意义_线性回归_04$ 列向量之间（特征间）存在近似的线性关系。

六、线性回归的优缺点

优点

直接。
快速。
可解释性好。

缺点

需要严格的假设。
需处理异常值，对异常值很敏感，对输入数据差异也很敏感。
线性回归存在共线性，自相关，异方差等问题。

七、局部加权线性回归

回归预测模型中，预测模型的准确度特别依赖于特征选择，局部加权线性回归解决了这个问题，预测性能不太依赖于特征选择，又很好避免过拟合，欠拟合风险。

局部加权线性回归是通过引入偏差来降低预测的均方误差，针对不同点能够对误差进行调整便可以一定程度上避免线性回归带来的欠拟合现象。

7.1 局部加权回归的损失函数

$xgboost回归模型调参回归模型参数的意义_深度学习_69$ ，其中 $xgboost回归模型调参回归模型参数的意义_深度学习_70$ 采用高斯核时， $xgboost回归模型调参回归模型参数的意义_机器学习_71$ 。

7.2 局部加权回归的参数解释

$xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_72$ ：波长参数，控制了权值随距离下降速率。
$xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_73$ 时，所有权重趋于1，变为标准线性回归；
$xgboost回归模型调参回归模型参数的意义_线性回归_74$ 时，距离较大样本点无法参与回归参数的求取过程，避免造成过拟合。
$xgboost回归模型调参回归模型参数的意义_线性回归_42$ ：要预测的点。
$xgboost回归模型调参回归模型参数的意义_xgboost回归模型调参_76$ ：数据集中点。
当两点越近时，权重w越大，对回归系数贡献越大。该函数形似高斯分布，但没有任何高斯分布意义，是一个非参数学习方法。

7.3 局部加权回归相比线性回归的优缺点

优点：不过分依赖特征选择。
缺点：计算量增大。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：springboot 中 mybatis是如何使用的数据库连接池 mybatis和数据库连接池

下一篇：数字图像处理实验直方图均衡化图像直方图均衡化算法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯