信息增益以及增益率划分属性

关注不想悲伤到天明

文章目录

信息熵
条件熵
信息增益
增益率

信息增益以及增益率划分属性

原创

不想悲伤到天明 2023-07-19 15:43:41 博主文章分类：机器学习 ©著作权

文章标签 决策树机器学习算法信息增益取值 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者不想悲伤到天明的原创作品，请联系作者获取转载授权，否则将追究法律责任

信息熵

信息熵 (information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合

中的第

类样本所占的比例为

(k = 1,2...

), 则 D 的信息熵为

$Ent(D) = - \sum_{k=1}^{|\gamma |}p_{k}\log_{2}p_{k}$

Ent(D) 的值越小,则D的纯度越高 .

计算信息熵时约定 : 如果 p = 0,则 = 0
Ent(D)的最小值是0,最大值是
|X| 表示X的数量,比如表示样本D的数量,下同.

假定随机变量X有两个取值0和1

X	0	1
p(x)	p	1-p

则图像是,

信息增益以及增益率划分属性_决策树_02

import matplotlib.pyplot as plt 
import numpy as np 
import seaborn as sns 

x = np.arange(0,1,0.01)
y = -x*np.log2(x) -(1-x)*np.log2(1-x) 

sns.set()
plt.grid(visible=True, which='major', linestyle='-')
plt.grid(visible=True, which='minor', linestyle='--', alpha=0.5)
plt.minorticks_on()
plt.xlabel('x')
plt.ylabel('H(x)')
plt.plot(x,y)
# plt.show()
plt.savefig('./h.png')

条件熵

概率定义: 随机变量X在给定条件下随机变量Y的条件熵,公式如下,

$\displaystyle H(Y|X) = \sum p(x) H(Y|X=x)$

或者换一种符号表示,

$\displaystyle Ent(D|D^{v}) = \sum_{v=1}^{V} \frac{|D^{v}|}{|D|} Ent(D^{v})$

假定离散属性 a(西瓜的色泽)有V 个可能的取值{

$a^{1},a^{2},...,a^{V}$

} (比如 {青绿,乌黑,浅白,墨绿 .. })等等吧 ,如果使用a 来对样本集D(西瓜) 进行划分 ,则会产生 V 个分支节点,其中第v 个分支节点包含了D 中所有在属性a上的取值为

$a^{v}$

的样本 ,记作

$D^{v}$

.

信息增益

根据信息熵的计算公式, 我们可以计算出

的信息熵 ,再考虑到不同的分支节点所包含的样本数不同,给分支节点赋予权重

$\frac{|D^{v}|}{|D|}$

,也就是样本数越多的分支节点影响越大,于是可以计算出用 a 属性对样本D进行划分所获得的"信息增益"(information gain)

$Gain(D,a) = Ent(D)-Ent(D|D^{v})$

代入,

$Gain(D,a) = Ent(D)-\sum_{v=1}^{V} \frac{|D^{v}|}{|D|} Ent(D^{v})$

一般来说, 信息增益越大,则意味着使用属性a进行划分所获得的"纯度提升"越大 .因此可以用信息增益来进行决策树的划分属性选择.

下面以西瓜数据集为例, 该数据集包含17个样本,用以学习一棵能预测没刨开的是不是好瓜的决策树. 显然

$|\mathcal{Y}|=2$

, 下图中可以看到,正例占 8/17 , 反例占 9/17,

$Ent(D) = -\sum_{k=1}^{2}p_{k}\log_{2}p_{k} =-(\frac{8}{17}\log_{2}\frac{8}{17} + \frac{9}{17}\log_{2}\frac{9}{17}) =0.998$

信息增益以及增益率划分属性_取值_13

然后我们计算出当前属性集合{色泽,根蒂,敲声,纹理,脐部,触感} 中每个属性的信息增益. 以属性"色泽" 为例 ,它有两个可能的取值 :{青绿,乌黑,浅白} .使用该属性对D进行划分, 则可得到 3个子集 ,分别记为 D1 (色泽=青绿) D2(色泽=乌黑) D3(色泽=浅白).

子集D1 包含的编号{1,4,6,10,13,17} , 正例(是)占 p1 = 3/6 ,反例(否) 占 p2 = 3/6 ;

子集D2 包含的编号 {2,3,7,8,9,15} , 正例占 p1 = 4/6 , 反例占 p2 = 2/6 ;

子集D3 包含的编号 {5,11,12,14,16} ,正例占p1 = 1/5 , 反例占p2 = 4/5 ;

可计算出"色泽"划分之后所获得的信息熵为:

信息增益以及增益率划分属性_信息增益_14

于是 , 计算出属性 " 色泽"的信息增益为 :

信息增益以及增益率划分属性_决策树_15

显然这里 Gain(D,纹理) = 0.381 信息增益最大, 于是他被选为划分属性.

信息增益以及增益率划分属性_算法_16

然后,决策树学习算法将每一个分支节点做进一步划分. 以图中的一个分支节点("纹理= 清晰") 为例, 该节点包含的样例集合

$D^{1}$

中有编号 {1,2,3,4,5,8,10,15} 的9 个样例,可用的属性集合为 { 色泽,根蒂,敲声,脐部,触感}; 基于

$D^{1}$

计算出各属性的信息增益:

信息增益以及增益率划分属性_决策树_19

"根蒂" , "脐部" , "触感" 3 个属性均取得最大的信息增益 ,可用选择其中一个作为划分属性, 最终得到:

信息增益以及增益率划分属性_取值_20

增益率

事实上用信息增益准则对可取值数目较多的属性有所偏好,为了减少这种偏好可能带来的不利影响,我们会使用 "增益率" ,来选择最优划分属性 , 增益率定义为 :

$G_{ain \,ratio}(D,a) = \frac{Gain(D,a)}{IV(a)}$

其中

$IV(a) = -\sum_{v=1}^{V} \frac{|D^{v}|}{|D|}\log_{2}\frac{|D^{v}|}{|D|}$

称为属性 a 的"固有值" ,属性a 取值数目越多(V越大) ,则 IV(a) 的值通常越大, 需要注意的是增益率准则对可取值数目较少的属性有所偏好,信息增益对可取值数目多的属性有所偏好, 折中一下就是先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的.

摘自 : 西瓜书

参考 : [机器学习]信息&熵&信息增益 - 风痕影默 - 博客园

赞
收藏
评论
分享
举报

上一篇：机器学习实战 -- 支持向量机(1)

下一篇：机器学习实战 -- 预测数值型数据: 回归

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册