1.常用的多样性度量的方法

大体可分为两种:成对多样性度量和非成对多样性度量,成对得多样性度量首先计算每一对分类器之间的多样性值,然后用其平均值衡量集成系统的多样性;非成对多样性度量直接计算集成系统的多样性值。

1.1成对的多样性度量

在介绍成对的多样性度量的方法之前,首先引入以下符号:假设有

个分类器,

    和  

   (i , j=1,2,............,

,i

j)分别为两个不同的分类器,


)为分类器 

 和 

 都对其正确(错误)分类的样例数目,


)为满足以下要求的样例数目:分类器


)对其正确分类而分类器


)对其错误分类,由此总的样例数目

可以表示为                                                                       

=

+

+

+

具体所示如下表所示

                                        

chao1多样性指数R语言计算 多样性指数怎么计算_chao1多样性指数R语言计算

1)Q统计

两个分类器

 和 

 之间的

统计值为                                                                    

 由上式子所见对于每个样例,如果两个分类器总是对其正确或者错误分类,即其行为是相同的,则有

=

=0,即

,此时他们的多样性程度最低;反之,如果两个分类器在每个样例上的分类结果都不同,

=

=0,即

,这种情况下多样性程度最高,对于统计独立的两个分类器,

的期望值是

。对于多分类系统



,..................,

,其

统计多样性值可以通过计算每对分类器之间的多样性的平均值得到,即                                                                    

其中类似的,对于以下三种成对的多样性度量,也是首先计算每对分类器之间的多样性,然后用其平均值作为集成系统的多样性值。

2)相关系数

两个分类器

 和 

之间的相关系数定义为                                           

 可以看出,对于两个分类器

 和 



有相同的符号,可以证明他们之间存在如下关系:                                                                               

与相关系数

相比,

统计更简单且更容易计算。

3)不一致度量dis

不一致度量关注两个分类器

 和 

分类结果不同的样例,他们之间的不一致度量

定义为:                                                                        

对于这样的样例越多的话,两个分类器之间的多样性程度就会越高,反之的话多样性程度就会越低,在这里

的取值范围是[0,1].

4)双次失败度量DF

双次失败度量关注的是分类器

 和 

均将其错误分类的样例,定义如下:                                                                            

可以看出,这样的样例越多的话,两个分类器月倾向于在相同的样例上出错,极端地,如果对于每个样例

 , 

 和 

均将其错误分类,即

,则两个分类器的精确性和他们之间的多样性程度达到最低。

 今天就总结到这里,下次博客将会总结非成对的多样性度量的方法。

非成对的多样性度量的方法博文如下