一句话总结随机森林

 

核心:用有放回采样的样本训练多棵决策树,训练决策树的每个节点是只用了无放回抽样的部分特征,预测时用这些树的预测结果进行投票。

 

随机森林是一种集成学习算法,它由多棵决策树组成。这些决策树用对训练样本集随机抽样构造出样本集训练得到。随机森林不仅对训练样本进行抽样,还对特征向量的分量随机抽样,在训练决策树时,每次分裂时只使用一部分抽样的特征分量作为候选特征进行分裂。

 

对于分类问题,一个测试样本会送到每一棵决策树中进行预测,然后投票,得票最多的类为最终分类结果。对于回归问题随机森林的预测输出是所有决策树输出的均值。

 

假设有n个训练样本。训练每一棵树时,从样本集中有放回的抽取n个样本,每个样本可能会被抽中多次,也可能一次都没抽中。用这个抽样的样本集训练一棵决策树,训练时,每次寻找最佳分裂时,还要对特征向量的分量采样,即只考虑部分特征分量。

 

随机森林是一种判别模型,既支持分类问题,也支持回归问题,并且支持多分类问题。这是一种非线性模型。