GBDT的优点和缺点_参数

优点、 缺点和参数
梯度提升决策树是监督学习中最强大也最常用的模型之一。
其主要缺点是需要仔细调参,而且训练时间可能会比较长。

与其他基于树的模型相同,它也通常不适用于高维稀疏数据

优点
与其他基于树的模型类似,这一算法不需要对数据进行缩放就可以表现得很好,而且也适用于二元特征与连续特征同时存在的数据集。

参数:
梯度提升树模型的主要参数包括
树的数量 n_estimators
学习率 learning_rate,用于控制每棵树对前一棵树的错误的纠正强度。

这两个参数高度相关,因为 learning_rate 越低,就需要更多的树来构建具有相似复杂度的模型。

随机森林的 n_estimators 值总是越大越好,但梯度提升不同,增大 n_estimators 会导致模型更加复杂,进而可能导致过拟合。
通常的做法是根据时间和内存的预算选择合适的 n_estimators,然后对不同的learning_rate 进行遍历。

另一个重要参数是 max_depth(或 max_leaf_nodes),用于降低每棵树的复杂度。梯度提升模型的 max_depth 通常都设置得很小,一般不超过 5。