Clementine决策树算法C&RT、CHAID、QUEST、C5.0的区别

转载

mb5ffd6f53cf9c6 2012-06-21 15:02:00

文章标签 字段决策树数据回归树推理过程 文章分类 数据结构与算法人工智能

决策树(decision tree)一般都是自上而下的来生成的。每个决策或事件（即自然状态）都可能引出两个或多个事件，导致不同的结果，把这种决策分支画成图形很像一棵树的枝干，故称决策树。

优点：
　　1)　可以生成可以理解的规则；
　　2)　计算量相对来说不是很大；
　　3) 可以处理连续和种类字段；
　　4) 决策树可以清晰的显示哪些字段比较重要。
缺点：
　　1) 对连续性的字段比较难预测；
　　2) 对有时间顺序的数据，需要很多预处理的工作；
　　3) 当类别太多时，错误可能就会增加的比较快；
4) 一般的算法分类的时候，只是根据一个字段来分类。

(racoon)

一、 C 5.0算法执行效率和内存使用改进、适用大数据集
优点：
1)面对数据遗漏和输入字段很多的问题时非常稳健；
2)通常不需要很长的训练次数进行估计；
3)比一些其他类型的模型易于理解，模型推出的规则有非常直观的解释；
4)允许进行多次多于两个子组的分割。目标字段必须为分类字段。

二、classification and regression tree(C&RT):

(详见决策树算法之一分类回归树(C&RT)(2009-10-21 21:13))
分类回归树
优点
（1）可自动忽略对目标变量没有贡献的属性变量，也为判断属性变量的重要性，减少变量数据提供参考；
（2）在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健（robust）；
（3）估计模型通常不用花费很长的训练时间；
(4) 推理过程完全依据属性变量的取值特点（与 C5.0不同，C&RT的输出字段既可以是数值型，也可以是分类型）
（5）比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释，决策推理过程可以表示成IF…THEN的形式
（6）目标是定类变量为分类树，若目标变量是定距变量，则为回归树；
（7）通过检测输入字段，通过度量各个划分产生的异质性的减小程度，找到最佳的一个划分。
（8）非常灵活，可以允许有部分错分成本，还可指定先验概率分布，可使用自动的成本复杂性剪枝来得到归纳性更强的树。

三、CHAID:
优点：
（1）可产生多分枝的决策树
（2）目标变量可以定距或定类
（3）从统计显著性角度确定分支变量和分割值，进而优化树的分枝过程
（4）建立在因果关系探讨中，依据目标变量实现对输入变量众多水平划分

四、quest（quick unbiased efficient statistical tree）:
优点：运算过程比CR&T更简单有效
QUEST 节点可提供用于构建决策树的二元分类法，此方法的设计目的是减少大型 C&R 决策树分析所需的处理时间，同时减小分类树方法中常见的偏
向类别较多预测变量的趋势。预测变量字段可以是数字范围的，但目标字段必须是分类的。所有分割都是二元的。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。