1.常用的多样性度量的方法
大体可分为两种:成对多样性度量和非成对多样性度量,成对得多样性度量首先计算每一对分类器之间的多样性值,然后用其平均值衡量集成系统的多样性;非成对多样性度量直接计算集成系统的多样性值。
1.1成对的多样性度量
在介绍成对的多样性度量的方法之前,首先引入以下符号:假设有
个分类器,
和
(i , j=1,2,............,
,i
j)分别为两个不同的分类器,
(
)为分类器
和
都对其正确(错误)分类的样例数目,
(
)为满足以下要求的样例数目:分类器
(
)对其正确分类而分类器
(
)对其错误分类,由此总的样例数目
可以表示为
=
+
+
+
具体所示如下表所示
1)Q统计
两个分类器
和
之间的
统计值为
由上式子所见对于每个样例,如果两个分类器总是对其正确或者错误分类,即其行为是相同的,则有
=
=0,即
,此时他们的多样性程度最低;反之,如果两个分类器在每个样例上的分类结果都不同,
=
=0,即
,这种情况下多样性程度最高,对于统计独立的两个分类器,
的期望值是
。对于多分类系统
,
,
,..................,
,其
统计多样性值可以通过计算每对分类器之间的多样性的平均值得到,即
其中类似的,对于以下三种成对的多样性度量,也是首先计算每对分类器之间的多样性,然后用其平均值作为集成系统的多样性值。
2)相关系数
两个分类器
和
之间的相关系数定义为
可以看出,对于两个分类器
和
,
与
有相同的符号,可以证明他们之间存在如下关系:
与相关系数
相比,
统计更简单且更容易计算。
3)不一致度量dis
不一致度量关注两个分类器
和
分类结果不同的样例,他们之间的不一致度量
定义为:
对于这样的样例越多的话,两个分类器之间的多样性程度就会越高,反之的话多样性程度就会越低,在这里
的取值范围是[0,1].
4)双次失败度量DF
双次失败度量关注的是分类器
和
均将其错误分类的样例,定义如下:
可以看出,这样的样例越多的话,两个分类器月倾向于在相同的样例上出错,极端地,如果对于每个样例
,
和
均将其错误分类,即
,则两个分类器的精确性和他们之间的多样性程度达到最低。
今天就总结到这里,下次博客将会总结非成对的多样性度量的方法。
非成对的多样性度量的方法博文如下