目录
一、集成学习中boosting类型最典型的代表
核心理念便是:分工明确,性能提高
二、Adaboost的训练步骤
STEP1:对于训练每个weak learner弱学习器 计算样本困难度
STEP2: 学习每个Weak learner的权重
三、SUMMARY总结
还记得上篇文章的随机森林RandomForest吗,今天这篇文章便是很好的解决了其缺点的算法,让我们一起学习吧
一、集成学习中boosting类型最典型的代表
何谓“前人栽树,后人乘凉”呢?
我们可以这样理解
- 先训练一个学习模型 weak learner 弱学习模型
- 再对这个模型进行评估,对于这个模型中做对的问题减少对它的注意力,而在模型中做错的问题将加大对它的注意力
- 在后续的新模型中,更专注于克服前面模型中所不能解决的困难点
- 最后,将所有的模型整合在一起构成一个大的框架,这个大的框架中就会既有处理简单问题的模型又有处理困难问题的模型。这样使整体性能都有所提高。
核心理念便是:分工明确,性能提高
二、Adaboost的训练步骤
Ensemble Learning集成学习包括随机森林和Adaboost,都是Supervised Learning都可以处理classification和regression任务
Adaboost中的后一个模型的训练永远是在前一个模型的基础上完成的-------->顺序,级联的结构
STEP1:对于训练每个weak learner弱学习器 计算样本困难度
- 初始化所有样本的困难度为
- 利用当前weak learner的训练结果更新所有样本的困难度。对于做对的样本减少其困难度,对于做错的样本增加其困难度
表示通过当前learner所产生的错误率
- 基于当前样本困难度,训练下一个learner(由于在训练第二个样本时,我们已经提高了对错误样本的困难度,所以现在会有部分错误样本被做对)
- 同上述方法,直至达到了我们提前设置的Adaboost所包含的模型数量的最大值
- 此时,Adaboost中已经有很多个模型,最后我们需要将这些模型整合成一个整体
STEP2: 学习每个Weak learner的权重
其中
表示第k个learner的错误率
三、SUMMARY总结
这里给大家总结一下和上一篇文章中的随机森林RandomForest的异同啦~
Adaboost和随机森林RandomForest都是集成学习、以弱搏强
优点:
- 顺序、级联的结构
随机森林RandomForest | 每个Weak Learner间是相互独立的,属于一种并联的结构 |
自适应增强算法Adaboost | 每个Weak Learner都建立在前一个的基础上,关注于解决之前无法解决的问题;模型的整体性能是逐步提高的 |
- 利用权重组合结果
随机森林RandomForest | 简单粗暴的将每个Weak Learner的输出用均值整合成一个 |
自适应增强算法Adaboost | 充分考虑了每个样本点的权重 |
缺点:
这类算法过分专注于解决困难样本
- 容易Overfit
- 对于异常点Outlier过于敏感模型的性能起点低
- 模型训练速度慢