随机森林装袋策略

使用决策树装袋是随机森林的特例,通过随机地从原有训练集中有放回地选取N个样本,将随机性加入到构建模型的过程中。
整个构建过程中,装袋使用同样的均匀分布概率分布来产生它的自助样本。
  • 装袋

状袋又称自助聚集,是一种根据均匀分布概率分布从数据集中重复抽取(有放回的)的技术,每个自助样本集和原数据一样大。由于抽样过程是有放回的,因此一些样本可能在同一个样本训练数据集中出现多次,而其他的一些被忽略。一般来说说,自助样本Di大约包含63%的原训练数据,因为每一次样本抽到的Di的概率为1 - (1 - 1/n)^n, 如果n无限大,这个概率收敛于 1 - 1/e 约等于0.632,所以还有大约37%的数据没有用到,这类数据一般称为袋外数据(out of bag data),也称oob,可用于随机森林的测试集。

特征抽取

  • 说明: 随机森林的泛化误差界与单个决策树的分类强度s成负相关,与决策树之间的相关性p成正相关,即分类强度s越大,相关性p越小,则泛化误差界越小,随机森林分类准确度越高。这也启发我们,对随机森林模型进行改进时,可以从两方面着手:一是提高单棵决策树的分类强度s,二是降低决策树之间的相关性p。泛化误差 <= ρ(1 - s2)/s2
  • Forest-RI: 随机输入特征
每棵决策树都随机选择F个特征来对其节点进行分裂,这样,分裂节点的决策是根据这F个选定的特征,而不是考虑所有可用的特征
来决定。然后,让树完全生长而不进行任何修剪,有助于减少结果数的偏倚。构建完成后,再采用少数服从多数的方法来组合预测。其中
,为了增加随机性,可以使用装袋法产生自助样本。选取特征的数目为F = log2d + 1,其中d是原始特征数,由于在每个节点仅仅需要
考虑特征的一个子集,这种方法将明显减少算法的运行时间。
  • Forest-RC: 随机组合新特征
如果原始特征d的数目太小,则很难选择一个独立的随机特征的集合来建立决策树(Forest-RI不在适用)。为此,必须加大特征空间,
其中一个办法是创建输入特征的线性组合。具体来说,新特征通过随机选择L个输入特征来构建。这些输入的特征区间[-1,1]上均匀分布产
生系数进行线性组合。在每个节点,新增F个这种随机组合的新特征,并且从中选择最好的特征来分裂节点。
  • 划分区间法
每棵决策树分类节点在原始特征中,从F个最佳划分中选择一个,除非F足够大,否则这种方法可能产生比Forest-RI和Forest-RC相关性
更强的树,这种方法也没有Forest-RI和Forest-RC节省时间,因为算法需要考察所有的节点。