机器学习算法随机森林图解随机森林算法应用

转载

mob6454cc6bf0b7 2023-12-14 14:28:58

文章标签 机器学习算法随机森林图解随机森林决策树数据 文章分类 机器学习人工智能

随机森林是bagging方法的一种具体实现。它会训练多棵决策树，然后将这些结果融合在一起就是最终的结果。随机森林可以用于分裂，也可以用于回归。主要在于决策树类型的选取，根据具体的任务选择具体类别的决策树。

对于分类问题，一个测试样本会送到每一颗决策树中进行预测，然后投票，得票最多的类为最终的分类结果；

对与回归问题，随机森林的预测结果是所有决策树输出的均值。

随机森林的随机性主要体现在两个地方：

1、在训练的时候，采用bootstrap方法对样本是有放回的抽样，每次都使用一部分样本去训练；

2、在决策树内部结点分裂时候，每一个结点都在所有特征里面随机选择在一部分特征，然后在这些特征里面选择最优分裂点。

包外误差

随机森林每次训练一棵决策树的时候，采用的都是部分的数据。所以，剩下没有使用的样本就可以用来做验证集。有一点像交叉验证的感觉。

对于分类问题，包外误差就是被错分的包外样本除以总的包外样本数

对于回归问题，就是所有包外样本的回归误差和除以包外样本数

特征重要性

随机森林还可以计算特征的重要性。经常也会用随机森林来做特征选择。这里用置换样本特征值(也可以添加噪声)以后的OOB(也就是包外的数据)误差的增加量来判断一个特征的重要性。因为，如果某个特征很重要的话，那么改变样本该特征的值对样本的预测结果就有很大的影响。如果特征不重要，改变特征对样本的预测结果也不会有很大的影响。下面为单棵决策树的误差增加量：

$v=\frac{n_1-n_2}{\left |oob\right |}$