java随机森林处理 java随机森林算法

转载

mob6454cc61981e 2024-03-09 13:24:51

推荐一篇写的很好的博客：[Machine Learning & Algorithm] 随机森林（Random Forest）.

随机森林算法是Bagging集成框架下的一种算法。它同时对训练数据和特征采用随机抽样的方式来构建更加多样化的基模型。随机森林具体的算法步骤如下：

随机抽样训练决策树。假如有N个样本，则有放回的随机选择N个样本（每次随机选择一个样本，然后返回继续选择，也就是说可能有重复的）。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。
在每个节点随机选取所有特征的一个子集，用来计算最佳分裂方式。当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m<<M。然后从这m个属性中采用某种策略（比如信息增益）来选择1个属性作为该节点的分裂属性。
决策树形成过程中每个节点都要按照步骤2来分裂（也就是说如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该结点已经达到了叶子节点，无须继续分裂了）。一直到不能分裂为止。注意整个决策树形成过程中没有进行剪枝。
按照步骤1-3建立大量的决策树，这样就构成了随机森林。

随机森林的随机性体现在每棵树的训练样本都是随机的，树中每个节点的分裂属性集合也是随机选择确定的。

优点：
–特征和数据的随机抽样–

缺点：

1.随机森林已经被证明在某些噪音比较大的分类或回归问题上会过拟合。（决策树的学习本质上进行的是决策节点的分裂，依赖于训练数据的空间分布）

2.对于有不同取值的属性数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

随机森林的基学习器是同构的，如果用全样本去训练m棵决策树的话，基模型之间的多样性减少，互相相关的程度增加，不能够有效起到减少方差的作用，对于模型的泛化能力是有害的。随机森林思想就是取一组高方差、低偏差的决策树，并将它们转换成低方差、低偏差的新模型。

本文涉及很多集成学习的思想，可以参考这篇：集成学习(Ensemble learning)面试高频题.

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客