目录

一。条件熵

二。对决策树的解释

三。决策树学习算法的特点

1.ID3

2.C4.5

3.CART

五。决策树的评价


一。条件熵

决策树和随机森林的应用_决策树和随机森林的应用

决策树和随机森林的应用_结点_02

决策树和随机森林的应用_信息增益_03

二。对决策树的解释

决策树和随机森林的应用_信息增益_04

1.决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。

2.决策树学习是以实例为基础的归纳学习。

3.决策树学习采用的是自顶向下的递归方法, 其基本思想是以信息熵为度量构造一棵熵值 下降最快的树,到叶子节点处的熵值为零, 此时每个叶节点中的实例都属于同一类。 

三。决策树学习算法的特点

1.决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过 多背景知识,只需要对训练实例进行较好的 标注,就能够进行学习。

2.显然,属于有监督学习。

3.从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。

四。决策树的生成算法

建立决策树的关键,即在当前状态下选择哪 个属性作为分类依据。根据不同的目标函数, 建立决策树主要有一下三种算法。

1.ID3

概念:当熵和条件熵中的概率由数据估计(特别是 极大似然估计)得到时,所对应的熵和条件熵分别 称为经验熵和经验条件熵。

信息增益表示得知特征A的信息而使得类X的信息 的不确定性减少的程度。

定义:特征A对训练数据集D的信息增益g(D,A), 定义为集合D的经验熵H(D)与特征A给定条件下D 的经验条件熵H(D|A)之差,即:g(D,A)=H(D) – H(D|A),显然,这即为训练数据集D和特征A的互信息。

显然,这即为训练数据集D和特征A的互信息。

决策树和随机森林的应用_信息增益_05

决策树和随机森林的应用_信息增益_06

决策树和随机森林的应用_决策树_07

使用信息增益/互信息g(D,A)进行特征选择。取值多的属性,更容易使数据更纯 ,其信息增益更大。训练得到的是一棵庞大且深度浅的树:不合理。

2.C4.5

信息增益率:gr(D,A) = g(D,A) / H(A)

3.CART

决策树和随机森林的应用_决策树和随机森林的应用_08

决策树和随机森林的应用_决策树和随机森林的应用_09

决策树和随机森林的应用_结点_10

决策树和随机森林的应用_决策树和随机森林的应用_11

此时,gini系数为0时最均匀 

一个属性的信息增益(率)/gini指数越大,表明属性 对样本的熵减少的能力更强,这个属性使得数据由 不确定性变成确定性的能力越强。

五。决策树的评价

假定样本的总类别为K个。

对于决策树的某叶结点,假定该叶结点含有样本数目为n,其中第k类的样本点数目为nk,k=1,2,...,K。

        若某类样本nj=n而n1,...,nj-1,nj+1,...,nK=0,称该结点为纯结点; 

        若各类样本数目n1=n2=...=nk=n/K,称该样本为均结点。

纯结点的熵Hp=0,最小

均结点的熵Hu=lnK,最大

对所有叶结点的熵求和,该值越小说明对样本的分类越精确。

        各叶结点包含的样本数目不同,可使用样本数加权求熵和

决策树和随机森林的应用_结点_12

        由于该评价函数越小越好,所以,可以称之为“损失函数”。