决策树加权重 决策树 gini值_算法

1.基尼系数:

最大为1,最小为0。越接近于0代表收入越平等,越接近于1代表收入越悬殊。

那么在决策树分类中,Gini系数越小,数据集合大小越平等,代表集合数据越纯。

我们可以在分类前计算一下Gini系数,分类后在计算一下Gini系数。找到分类后最小的基尼系数就代表分类条件最好。我们一定要找到某个分类条件可以使得分类后的基尼系数最小。可以尝试多个分类条件,哪个分类条件分类完成后基尼系数最小,哪个分类条件就比较好。

例如:对年龄分类是<30得到的基尼系数最小还是<25得到的基尼系数最小。

或者干脆不用年龄作为指标用身高等等。从中选择一个计算后基尼系数最小的作为指标。

所以我们可以看出决策树这样计算量还是很大的。

分类前基尼系数计算公式

决策树加权重 决策树 gini值_决策树_02

k是代表k各类别.

分类后基尼系数计算公式:

决策树加权重 决策树 gini值_机器学习_03

决策树加权重 决策树 gini值_数据_04

简单解释一下分类过程:

Gini系数是根据一个先验知识选择一个数据特征(预定分类条件),做出分类后,有一批有左边分支,有一批走右边分支,然后可以根据公式计算出分类后每个节点的Gini系数,Gini系数是0就可以不用分类了,另一边Gini系数不为0可以继续分类,那么这个分支可以再选择一个特征继续分类,分类完成后再次计算Gini系数,最终计算分类后的基尼系数,最小的话说明选择的数据特征最合适,分类比较正确收益最大。

上图是对鸢尾花进行三分类

根据petal length<=2.45分成两个路径

左边的基尼系数计算:

决策树加权重 决策树 gini值_决策树加权重_05

得到基尼系数是0,说明数据分类最纯。右边的基尼系数计算:

决策树加权重 决策树 gini值_决策树_06

上面左边基尼系数同样计算公式。分类后总的基尼系数:

决策树加权重 决策树 gini值_机器学习_07

,如果众多分类条件中这个基尼系数最小,那么我们就选择这个基尼系数。分类前的基尼系数-分类后的基尼系数=收益   

决策树加权重 决策树 gini值_决策树加权重_08

(收益越大越好)