X G B o o s t XGBoost XGBoost
一 Boosting
-
Boosting: 将弱学习器组合成强分类器
– 构造一个性能很高的预测(强学习器)是一件很困难的事情
– 但构造一个性能一般的预测(弱学习器)并不难
– 弱学习器:性能比随机猜测好(层数不深的CART是一个好选择) -
亦可视为一种自适应基模型:
其中
为基函数/弱学习器。
二 Gradient Boosting
三 XGBoost
- XGBoost:eXtreme Gradient Boosting
– 可自定义损失函数:损失函数采用二阶近似
– 规范化的正则项:叶子节点数目、叶子结点的分数
– 建树与剪枝:先建完全树后剪枝 - 支持分裂点近似搜索
- 稀疏特征处理
- 缺失值处理
– 特征重要性与特征选择
– 并行计算
– 内存缓存