文章目录
- GINI计算
- 信息增益计算
1 有以下二分类问题训练样本
顾客ID | 性别 | 车型 | 衬衣尺码 | 类 |
1 | 男 | 家用 | 小 | C0 |
2 | 男 | 运动 | 中 | C0 |
3 | 男 | 运动 | 中 | C0 |
4 | 男 | 运动 | 大 | C0 |
5 | 男 | 运动 | 加大 | C0 |
6 | 男 | 运动 | 加大 | C0 |
7 | 女 | 运动 | 小 | C0 |
8 | 女 | 运动 | 小 | C0 |
9 | 女 | 运动 | 中 | C0 |
10 | 女 | 豪华 | 大 | C0 |
11 | 男 | 家用 | 大 | C1 |
12 | 男 | 家用 | 加大 | C1 |
13 | 男 | 家用 | 中 | C1 |
14 | 男 | 豪华 | 加大 | C1 |
15 | 女 | 豪华 | 小 | C1 |
16 | 女 | 豪华 | 小 | C1 |
17 | 女 | 豪华 | 中 | C1 |
18 | 女 | 豪华 | 中 | C1 |
19 | 女 | 豪华 | 中 | C1 |
20 | 女 | 豪华 | 大 | C1 |
GINI计算
- 计算整个样本集的GINI指标值
- ID属性GINI指标值
- 性别属性GINI指标值
- 多路划分属性车型的GINI指标值
- 多路划分属性衬衣的GINI指标值
- 性别、车型、衬衣哪个属性好
以下计算 GINI 公式:
多路划分属性统计表:
Class | 衣服种类 | Class | 车型 | ||||||
小 | 中 | 大 | 加大 | 家用 | 运动 | 豪华 | |||
C0 | 3 | 3 | 2 | 2 | C0 | 1 | 8 | 1 | |
C1 | 2 | 4 | 2 | 2 | C1 | 3 | 0 | 7 |
2 有以下二分类问题数据集。
左侧为原数据,右侧上下两个表为统计数据
A | B | 类标号 | 统计A | |||
T | F | + | A=T | A=F | ||
T | T | + | + | 4 | 0 | |
T | T | + | - | 3 | 3 | |
T | F | - | ||||
T | T | + | ||||
F | F | - | ||||
F | F | - | 统计B | |||
F | F | - | B=T | B=F | ||
T | T | - | + | 3 | 1 | |
T | F | - | - | 1 | 5 |
信息增益计算
- 计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?
- 计算按照属性A和B划分时GINI指标。决策树归纳算法将会选择那个属性?
- 熵和GINI指标在区间 [0,0.5] 都是单调递增,在区间 [0,0.5] 单调递减。有没有可能信息增益和GINI指标增益支持不同的属性?解释你的理由。
信息熵:
(1)划分前样本集的信息熵:
按照A属性划分样本集的 信息增益:
同理可得:(恕我偷懒了,网页编辑公式费时)
按照B属性划分样本集的 信息增益: = 0.2565
因此决策树归纳算法选A属性
(2)按照属性A 、B划分样本集
解答:由原数据 (左表)和统计A 可得GINI指标:
GINI 增益:
由统计B(右下表) 可得:
GINI 增益:
因此决策树归纳算法选B属性
(C):信息增益考察的是特征对整个数据贡献,没有到具体的类别上,所以一般只能用来做全局的特征选择
Gini系数是一种与信息熵类似的做特征选择的方式,用来数据的不纯度。在做特征选择的时候,我们可以取ΔGini(X)最大的那个。