文章目录

1 有以下二分类问题训练样本

顾客ID

性别

车型

衬衣尺码


1


家用


C0

2


运动


C0

3


运动


C0

4


运动


C0

5


运动

加大

C0

6


运动

加大

C0

7


运动


C0

8


运动


C0

9


运动


C0

10


豪华


C0

11


家用


C1

12


家用

加大

C1

13


家用


C1

14


豪华

加大

C1

15


豪华


C1

16


豪华


C1

17


豪华


C1

18


豪华


C1

19


豪华


C1

20


豪华


C1

GINI计算
  1. 计算整个样本集的GINI指标值
  2. ID属性GINI指标值
  3. 性别属性GINI指标值
  4. 多路划分属性车型的GINI指标值
  5. 多路划分属性衬衣的GINI指标值
  6. 性别、车型、衬衣哪个属性好

以下计算 GINI 公式:
决策树(信息熵—GINI)计算习题_信息增益计算

解答:
1. 整体Gini值:1-(1/2)^2-(1/2)^2 =0.5
2. ID 每个都不一样,与其他人没有共性,所以GINI=0
3. 性别 :1-(1/2)^2-(1/2)^2 =0.5
4. 家用: 1-(1/4)2-(3/4)2 = 0.375
运动: 1-(0/8)2-(8/8)2 = 0
豪华: 1-(1/8)2-(7/8)2 = 0.218
车型GINI=4/20*0.375+8/20*0.218 = 0.16252

多路划分属性统计表:

Class

衣服种类

Class

车型




加大

家用

运动

豪华

C0

3

3

2

2

C0

1

8

1

C1

2

4

2

2

C1

3

0

7

5. 三种尺码GINI系数:
小:1-(3/5)2-(2/5)2 = 0.48
中:1-(3/7)2-(4/7)2 = 0.4898
大:1-(2/4)2-(2/4)2 = 0.5
加大:1-(2/4)2-(2/4)2 = 0.5

衬衣GINI:5/20*0.48+7/20*0.4898+4/20*0.5+4/20*0.5 = 0.4914

6. 属性比较:通过上述计算,显然车型不纯度高,更容易划分

2 有以下二分类问题数据集。

左侧为原数据,右侧上下两个表为统计数据

A

B

类标号

统计A

T

F

+

A=T

A=F

T

T

+

+

4

0

T

T

+

-

3

3

T

F

-

T

T

+

F

F

-

F

F

-

统计B

F

F

-

B=T

B=F

T

T

-

+

3

1

T

F

-

-

1

5

信息增益计算
  1. 计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?
  2. 计算按照属性A和B划分时GINI指标。决策树归纳算法将会选择那个属性?
  3. 熵和GINI指标在区间 [0,0.5] 都是单调递增,在区间 [0,0.5] 单调递减。有没有可能信息增益和GINI指标增益支持不同的属性?解释你的理由。

信息熵
决策树(信息熵—GINI)计算习题_信息增益计算_02
(1)划分前样本集的信息熵决策树(信息熵—GINI)计算习题_样本集_03

决策树(信息熵—GINI)计算习题_GINI增益计算_04决策树(信息熵—GINI)计算习题_信息增益_05

决策树(信息熵—GINI)计算习题_GINI增益计算_04决策树(信息熵—GINI)计算习题_样本集_07

决策树(信息熵—GINI)计算习题_GINI增益计算_04按照A属性划分样本集的 信息增益决策树(信息熵—GINI)计算习题_信息增益_09

决策树(信息熵—GINI)计算习题_GINI增益计算_04同理可得:(恕我偷懒了,网页编辑公式费时)
决策树(信息熵—GINI)计算习题_GINI增益计算_04按照B属性划分样本集的 信息增益决策树(信息熵—GINI)计算习题_GINI增益计算_12 = 0.2565
决策树(信息熵—GINI)计算习题_GINI增益计算_04因此决策树归纳算法选A属性

(2)按照属性A 、B划分样本集
决策树(信息熵—GINI)计算习题_GINI增益计算_04解答:由原数据 (左表)和统计A 可得GINI指标:

决策树(信息熵—GINI)计算习题_GINI增益计算_04决策树(信息熵—GINI)计算习题_GINI增益计算_16

决策树(信息熵—GINI)计算习题_GINI增益计算_04决策树(信息熵—GINI)计算习题_样本集_18
决策树(信息熵—GINI)计算习题_GINI增益计算_04决策树(信息熵—GINI)计算习题_样本集_20

GINI 增益:
决策树(信息熵—GINI)计算习题_信息增益计算_21

由统计B(右下表) 可得:

决策树(信息熵—GINI)计算习题_GINI增益计算_04决策树(信息熵—GINI)计算习题_信息增益计算_23
决策树(信息熵—GINI)计算习题_GINI增益计算_04决策树(信息熵—GINI)计算习题_样本集_25

GINI 增益:
决策树(信息熵—GINI)计算习题_样本集_26
决策树(信息熵—GINI)计算习题_GINI增益计算_04因此决策树归纳算法选B属性

(C):信息增益考察的是特征对整个数据贡献,没有到具体的类别上,所以一般只能用来做全局的特征选择
Gini系数是一种与信息熵类似的做特征选择的方式,用来数据的不纯度。在做特征选择的时候,我们可以取ΔGini(X)最大的那个。