随机森林特征选择算法伪代码随机森林特征选择原理

转载

mob64ca13f587aa 2024-03-01 15:11:01

理解随机森林

随机森林利用随机的方式将许多决策树组合成一个森林，每个决策树在分类的时候投票决定测试样本的最终类别。下面我们再详细说一下随机森林是如何构建的。

随机森林主要包括4个部分：随机选择样本；随机选择特征；构建决策树；随机森林投票分类。

1.随机选择样本

放回采样到N个样本，构成一个新的训练集。注意这里是有放回的采样，所以会采样到重复的样本。详细来说，就是采样N次，每次采样一个，放回，继续采样。即得到了N个样本。

然后我们把这个样本集作为训练集，进入下面的一步。

在构建决策树的时候，我们前面已经讲过如何在一个节点上，计算所有特征的Information Gain（ID3）或者 Gain Ratio（C4.5），然后选择一个最大增益的特征作为划分下一个子节点的走向。

随机选择m个特征，其中m可以等于sqrt(M)，然后计算m个特征的增益，选择最优特征（属性）。注意，这里的随机选择特征是无放回的选择！

所以，随机森林中包含两个随机的过程：随机选择样本，随机选择特征。

Information Gain（ID3）或者 Gain Ratio（C4.5）。

投票机制，或者该测试样本的最终分类结果。

优点：

缺点：

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯