问题引入

集成学习方法算是一个很牛的学习模块了,乱七八糟的分类或者回归通过某种方法做aggregation得到新的很牛的模型,通俗的来说就是集思广益,群众的力量就是大。既然大家都知道集成学习的算法好,但是你知道为啥这么好吗?有啥理论上的依据吗?

问题解答

在参考的两篇论文中,相关学者也有稍微解释了一下做了一下实验得到一些结果说集成学习既可以降低bais又可以降低variance。当然集成的方式很多有像adaboost那种的,又有像RF那种的。总的来说,我人个人认为对于像Adaboost这种learning形式的Aggregation,主攻bias,偏差可以降到很低,至于variance的话,可以从margin理论的角度来考虑。对于像RF这种blending形式的Aggregation。Variance自然不用说了,主攻的是就是它,对于bias的话,每棵树做的好一点,bias也就降下来了。

台大林老师的一个ppt中也讲过了一个理论的计算,和大家分享下,可能用来解释这个问题不是很好,仅供大家参考,觉得面试的时候万一要理论推导,用这个推导可能会更好点。

面试官:为啥集成学习方法通常情况下效果就是好呢?_java


参考:

https://www.zhihu.com/question/370527301/answer/1031386664
https://www.quora.com/How-do-ensemble-methods-work-and-why-are-they-superior-to-individual-models
https://link.zhihu.com/?target=http%3A//www-vis.lbl.gov/~romano/mlgroup/papers/hbtnn-ensemble-learning.pdf

面试官:为啥集成学习方法通常情况下效果就是好呢?_java_02