决策树加权重决策树 gini值

转载

daleiwang 2024-04-07 15:43:22

文章标签 决策树加权重决策树算法机器学习数据 文章分类 深度学习人工智能

决策树加权重决策树 gini值_算法

1.基尼系数：

最大为1，最小为0。越接近于0代表收入越平等，越接近于1代表收入越悬殊。

那么在决策树分类中，Gini系数越小，数据集合大小越平等，代表集合数据越纯。

我们可以在分类前计算一下Gini系数，分类后在计算一下Gini系数。找到分类后最小的基尼系数就代表分类条件最好。我们一定要找到某个分类条件可以使得分类后的基尼系数最小。可以尝试多个分类条件，哪个分类条件分类完成后基尼系数最小，哪个分类条件就比较好。

例如：对年龄分类是<30得到的基尼系数最小还是<25得到的基尼系数最小。

或者干脆不用年龄作为指标用身高等等。从中选择一个计算后基尼系数最小的作为指标。

所以我们可以看出决策树这样计算量还是很大的。

分类前基尼系数计算公式

决策树加权重决策树 gini值_决策树_02

k是代表k各类别.

分类后基尼系数计算公式：

决策树加权重决策树 gini值_机器学习_03

决策树加权重决策树 gini值_数据_04

简单解释一下分类过程：

Gini系数是根据一个先验知识选择一个数据特征（预定分类条件），做出分类后，有一批有左边分支，有一批走右边分支，然后可以根据公式计算出分类后每个节点的Gini系数，Gini系数是0就可以不用分类了，另一边Gini系数不为0可以继续分类，那么这个分支可以再选择一个特征继续分类，分类完成后再次计算Gini系数，最终计算分类后的基尼系数，最小的话说明选择的数据特征最合适，分类比较正确收益最大。

上图是对鸢尾花进行三分类

根据petal length<=2.45分成两个路径

左边的基尼系数计算：

$1-\sum_{k=1}^{3}p_{k}^{2}=1-(\frac{50}{50})^{2}-(\frac{0}{50})^{2}-0=0$