回归树

之前的博客 介绍了决策树算法在分类问题上面的应用,有提到ID3算法,C4.5算法和CART算法,其中CART(Classification And Regression Tree)分类回归树既可以用于分类,也可以用于回归,当用于分类的时候,CART树中每个叶子结点代表一个类别,在回归问题中,CART树中每个叶子结点代表一个预测值,其是连续的。这里针对CART在回归问题上面的应用,进行简单介绍。

CART分类和回归的异同点

相同点:

1、构造的树均为二叉树。2、所有落在同一叶子结点上面的输入具有同样的输出。

不同点:

1、在进行划分属性选择时使用的判别标准不同:在分类问题中,CART算法使用基尼系数(Gini index)作为选择特征(feature)和划分 (split)的依据;在回归问题中,CART算法使用MSE(均方误差)或者MAE(平均绝对误差)作为选择特征(feature)和划分 (split)的依据。

2、在分类问题中,CART算法得到的树结构,每个叶子结点是一个类别;在回归问题中,CART算法得到的树结构,每个叶子结点是一个连续值。

CART回归树的理论解释

lightgbm 回归树 回归树原理_结点

lightgbm 回归树 回归树原理_机器学习_02

CART回归树的流程

lightgbm 回归树 回归树原理_决策树_03

 CART回归树剪枝

lightgbm 回归树 回归树原理_lightgbm 回归树_04

之前在决策树构建过程中,为了防止决策树过拟合,使用到了剪枝的方法,在回归树中同样可以使用剪枝的方法来防止过拟合。我们知道,如果让回归树无限制地生长,最终可能出现的结果是每个叶子结点只有一个训练样本,导致其在训练集过分拟合,从而在测试集上面效果很差,因此我们这里对回归树的叶子结点数量进行限制,也就是增加上面的正则化项。

是一个超参,

代表回归树中的叶子结点的数量,最小化上面的损失函数,不希望叶子结点的数量过大。其中,

可以通过交叉验证来确定,当

的值确定之后,我们就可以选择

对应的使得上面损失函数最小的回归树。

ID3和C4.5是否可以用于回归树

lightgbm 回归树 回归树原理_决策树_05

参考资料:

1.