lightgbm 回归树回归树原理

转载

mob64ca13ff5b03 2024-05-21 11:01:43

文章标签 lightgbm 回归树机器学习回归树结点决策树 文章分类 机器学习人工智能

回归树

之前的博客介绍了决策树算法在分类问题上面的应用，有提到ID3算法，C4.5算法和CART算法，其中CART（Classification And Regression Tree）分类回归树既可以用于分类，也可以用于回归，当用于分类的时候，CART树中每个叶子结点代表一个类别，在回归问题中，CART树中每个叶子结点代表一个预测值，其是连续的。这里针对CART在回归问题上面的应用，进行简单介绍。

CART分类和回归的异同点

相同点：

1、构造的树均为二叉树。2、所有落在同一叶子结点上面的输入具有同样的输出。

不同点：

1、在进行划分属性选择时使用的判别标准不同：在分类问题中，CART算法使用基尼系数（Gini index）作为选择特征（feature）和划分（split）的依据；在回归问题中，CART算法使用MSE（均方误差）或者MAE（平均绝对误差）作为选择特征（feature）和划分（split）的依据。

2、在分类问题中，CART算法得到的树结构，每个叶子结点是一个类别；在回归问题中，CART算法得到的树结构，每个叶子结点是一个连续值。

CART回归树的理论解释

lightgbm 回归树回归树原理_结点

lightgbm 回归树回归树原理_机器学习_02

CART回归树的流程

lightgbm 回归树回归树原理_决策树_03

CART回归树剪枝

lightgbm 回归树回归树原理_lightgbm 回归树_04

之前在决策树构建过程中，为了防止决策树过拟合，使用到了剪枝的方法，在回归树中同样可以使用剪枝的方法来防止过拟合。我们知道，如果让回归树无限制地生长，最终可能出现的结果是每个叶子结点只有一个训练样本，导致其在训练集过分拟合，从而在测试集上面效果很差，因此我们这里对回归树的叶子结点数量进行限制，也就是增加上面的正则化项。

是一个超参，

代表回归树中的叶子结点的数量，最小化上面的损失函数，不希望叶子结点的数量过大。其中，

可以通过交叉验证来确定，当

的值确定之后，我们就可以选择

对应的使得上面损失函数最小的回归树。