信息增益率与信息增益有关。

信息增益存在一个问题,即若某个属性可取值数目较多,如用ID来作为分类标准,则信息增益会非常高。然而,这显然不符合实际情况,模型进入了过拟合,且不能对新数据进行有效的分类。

增益率则在考虑了该情况的前提下,提出了一个新的公式:

信息增益率_C4.5

其中,a的可取值数量V越大,IV(a)就会越大。
但是,增益率会对可取值数目较少的属性有所偏好。