Jaccard相似系数

Jaccard相似系数衡量的则是两个集合的相似性,它定义为两个集合的交集元素在并集中所占的比例。

与Jaccard相似系数相反,Jaccard距离则用不同元素所占的比例来衡量两个集合的区分度。

Jaccard index, 又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:

聚类 Jaccard 杰卡德系数(JC)_聚类

当集合A,B都为空时,J(A,B)定义为1。

与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:

聚类 Jaccard 杰卡德系数(JC)_聚类_02

 

 

其中对称差(symmetric difference)

 

聚类 Jaccard 杰卡德系数(JC)_相似度_03

 

聚类 Jaccard 杰卡德系数(JC)_并集_04

示例 例子

集合A = {a, b, c, d}
集合B = {c, d, e, f}
A∩B = {c, d}
A∪B = {a, b, c, d, e, f}
交集中有2个元素,并集中有6个元素,因此:
杰卡德系数为:J(A,B) = 2/6 = 1/3
杰卡德距离为:1 - J(A,B) = 2/3

 

聚类 Jaccard 杰卡德系数(JC)_并集_05

 

评价聚类质量:

在数据集上使用聚类方法之后,需要评估结果簇的质量。

两类方法:外在方法和内在方法

外在方法:有监督的方法,需要基准数据。用一定的度量评判聚类结果与基准数据的符合程度。

内在方法:无监督的方法,无需基准数据。类内聚集程度和类间离散程度。

 


 

 

 

 REF

https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=aladdin

 

https://wenku.baidu.com/view/9a8b6025a5c30c22590102020740be1e650eccec.html (聚类结果评价)

 

(聚类结果评价)

https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=ge_ala