信息增益率与信息增益有关。
信息增益存在一个问题,即若某个属性可取值数目较多,如用ID来作为分类标准,则信息增益会非常高。然而,这显然不符合实际情况,模型进入了过拟合,且不能对新数据进行有效的分类。
增益率则在考虑了该情况的前提下,提出了一个新的公式:
其中,a的可取值数量V越大,IV(a)就会越大。
但是,增益率会对可取值数目较少的属性有所偏好。
信息增益率与信息增益有关。
信息增益存在一个问题,即若某个属性可取值数目较多,如用ID来作为分类标准,则信息增益会非常高。然而,这显然不符合实际情况,模型进入了过拟合,且不能对新数据进行有效的分类。
增益率则在考虑了该情况的前提下,提出了一个新的公式:
其中,a的可取值数量V越大,IV(a)就会越大。
但是,增益率会对可取值数目较少的属性有所偏好。
上一篇:机器学习中的正则化
保持原始比例进行缩放
信息增益 先来定义"信息熵" (information entropy) , 它是度量样本集合纯度最常用的一
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M