随机森林回归模型怎么看预测结果准不准随机森林回归过拟合

转载

mob64ca13ffd0f1 2024-04-14 00:24:17

文章标签 决策树随机森林机器学习结点其他 文章分类 架构后端开发

1 决策树的过拟合问题

1.1 问题描述

决策树对训练属于有很好的分类能力，但是对未知的测试数据未必有好的分类能力，泛化能力弱，即可能发生过拟合现象。

1.2 解决方法

（1）剪枝随机森林回归模型怎么看预测结果准不准随机森林回归过拟合_结点

随机森林回归模型怎么看预测结果准不准随机森林回归过拟合_随机森林_02

随机森林回归模型怎么看预测结果准不准随机森林回归过拟合_随机森林_03

（2）合理有效抽样

bagging:

随机森林回归模型怎么看预测结果准不准随机森林回归过拟合_随机森林_04

OOB数据

随机森林回归模型怎么看预测结果准不准随机森林回归过拟合_机器学习_05

随机森林

随机森林回归模型怎么看预测结果准不准随机森林回归过拟合_结点_06

随机森林/Bagging与决策树的关系

决策树是基础分类器；

SVM、Logistic回归等其他分类器组成“总分类器”，叫做随机森林。

举例：回归问题

2 回归

2.1 算法过程

做100次bootstrap，每次得到的数据Di（Di的长度为N）。对于每个Di，使用局部回归（LOESS）拟合成一条曲线。然后将这些曲线取平均，得到最终的最终拟合曲线，该曲线过拟合情况是减弱的。

2.2 举例

投票：（1）简单投票机制：一票否决、少数服从多数、阈值表决（2）贝叶斯投票机制

电影评价：使得随机森林回归模型怎么看预测结果准不准随机森林回归过拟合_随机森林_07 尽可能大。
随机森林回归模型怎么看预测结果准不准随机森林回归过拟合_机器学习_08

3 随机森林的用途

3.1 使用随机森林计算样本间相似度

原理：若两样本同时出现在相同叶结点的次数越多，则两者越相似。

算法过程：记样本个数为N，初始化NXN的零矩阵S，S[i,j]表示样本i和j的相似度。对于m棵决策树形成的随机森林，遍历所有决策树的所有叶子结点（样本i,j出现在相同的结点，则s[i,j]加1）。遍历结束，S为样本间相似度矩阵。

3.2 使用随机森林计算特征重要性

（1）计算正例经过的结点，使用经过结点的数目、gini系数和等指标来判断特征的重要性。

（2）随机替换一列数据，重新建立决策树，计算新模型的正确率变化来判断这一列的特征的重要性。

3.3 孤立森林

孤立森林（Isolation Forest）通过对样本点的孤立来检测异常值。

特征、分割点都随机选择，然后生成一定深度的决策树iTree，若干棵iTree组成iForest。

先计算iTree中样本从根到叶子的长度f(x)，然后计算iForest中f(x)的总和F(x)。

检测标准：F(x)较小的样本x为异常值。

总结

决策树/随机森林的代码清晰、逻辑简单，在胜任分类问题的同时，往往也可以作为对数据分布探索的首要尝试算法。

随机森林的集成思想也可用在其他分类器的设计中。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：gdb查看函数变量地址arguement gdb查看变量的值

下一篇：springboot集成oauth2对外授权 springboot oa

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯