一,特征连续如何选择分割点
1,根据样本平均数分割,取特征的最大值减去最小值,再除以N份,求每一份的信息熵
2,根据样本类别分割,将样本投影在特征上分出N类别,在每个类别中取一个点,或中值,或平均值等,然后算熵
3,(推荐)随机取点:在最大值与最小值中随机取个点,取N次,算每次熵。
二,样本不均衡的常用处理方法假定样本A的数目比B类多,且严重不平衡。样本本身的不均衡,如信用卡欺诈
或样本采集造成的不均衡
1,A类欠采样(推荐)
(1)在A中随机分成若干个子类,分别与B类生成若干个决策树
(2)基于聚类,将A类分割成若干类,在每类中随机取若干个样本,与B类生成决策树
2,B类过采样
将B类重复取样N次
3,B类数据合成
随机插值得到新样本
4,代价敏感学习
降低A类的权值,提高B类的权值
三,随机森林的优缺点
优点
1、 在当前的很多数据集上,相对其他算法有着很大的优势,表现良好
2、它能够处理很高维度(feature很多)的数据,并且不用做特征选择
3、在训练完后,它能够给出哪些feature比较重要
4、在创建随机森林的时候,对generlization error使用的是无偏估计,模型泛化能力强
5、训练速度快,容易做成并行化方法
6、 在训练过程中,能够检测到feature间的互相影响
7、 实现比较简单
8、 对于不平衡的数据集来说,它可以平衡误差。
9、如果有很大一部分的特征遗失,仍可以维持准确度。
缺点:
1、随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟
2、对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。