随机森林筛选特征的优点随机森林特征提取实例

转载

墨舞青云 2024-03-22 06:43:42

文章标签 随机森林筛选特征的优点随机森林权值数据 文章分类 机器学习人工智能

一，特征连续如何选择分割点

1，根据样本平均数分割，取特征的最大值减去最小值，再除以N份，求每一份的信息熵

2，根据样本类别分割，将样本投影在特征上分出N类别，在每个类别中取一个点，或中值，或平均值等，然后算熵

3，（推荐）随机取点：在最大值与最小值中随机取个点，取N次，算每次熵。

二，样本不均衡的常用处理方法假定样本A的数目比B类多，且严重不平衡。样本本身的不均衡，如信用卡欺诈
或样本采集造成的不均衡

1，A类欠采样（推荐）

（1）在A中随机分成若干个子类，分别与B类生成若干个决策树

（2）基于聚类，将A类分割成若干类，在每类中随机取若干个样本，与B类生成决策树

2，B类过采样

将B类重复取样N次

3，B类数据合成

随机插值得到新样本

4，代价敏感学习

降低A类的权值，提高B类的权值

三，随机森林的优缺点

优点
1、在当前的很多数据集上，相对其他算法有着很大的优势，表现良好
2、它能够处理很高维度（feature很多）的数据，并且不用做特征选择
3、在训练完后，它能够给出哪些feature比较重要
4、在创建随机森林的时候，对generlization error使用的是无偏估计，模型泛化能力强
5、训练速度快，容易做成并行化方法
6、在训练过程中，能够检测到feature间的互相影响
7、实现比较简单
8、对于不平衡的数据集来说，它可以平衡误差。
9、如果有很大一部分的特征遗失，仍可以维持准确度。

缺点：
1、随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟
2、对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。