1.基尼系数:
最大为1,最小为0。越接近于0代表收入越平等,越接近于1代表收入越悬殊。
那么在决策树分类中,Gini系数越小,数据集合大小越平等,代表集合数据越纯。
我们可以在分类前计算一下Gini系数,分类后在计算一下Gini系数。找到分类后最小的基尼系数就代表分类条件最好。我们一定要找到某个分类条件可以使得分类后的基尼系数最小。可以尝试多个分类条件,哪个分类条件分类完成后基尼系数最小,哪个分类条件就比较好。
例如:对年龄分类是<30得到的基尼系数最小还是<25得到的基尼系数最小。
或者干脆不用年龄作为指标用身高等等。从中选择一个计算后基尼系数最小的作为指标。
所以我们可以看出决策树这样计算量还是很大的。
分类前基尼系数计算公式
k是代表k各类别.
分类后基尼系数计算公式:
简单解释一下分类过程:
Gini系数是根据一个先验知识选择一个数据特征(预定分类条件),做出分类后,有一批有左边分支,有一批走右边分支,然后可以根据公式计算出分类后每个节点的Gini系数,Gini系数是0就可以不用分类了,另一边Gini系数不为0可以继续分类,那么这个分支可以再选择一个特征继续分类,分类完成后再次计算Gini系数,最终计算分类后的基尼系数,最小的话说明选择的数据特征最合适,分类比较正确收益最大。
上图是对鸢尾花进行三分类
根据petal length<=2.45分成两个路径
左边的基尼系数计算:
得到基尼系数是0,说明数据分类最纯。右边的基尼系数计算:
上面左边基尼系数同样计算公式。分类后总的基尼系数:
,如果众多分类条件中这个基尼系数最小,那么我们就选择这个基尼系数。分类前的基尼系数-分类后的基尼系数=收益
(收益越大越好)