Jaccard相似系数
Jaccard相似系数衡量的则是两个集合的相似性,它定义为两个集合的交集元素在并集中所占的比例。
与Jaccard相似系数相反,Jaccard距离则用不同元素所占的比例来衡量两个集合的区分度。
Jaccard index, 又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。
给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:
当集合A,B都为空时,J(A,B)定义为1。
与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:
其中对称差(symmetric difference)
示例 例子
集合A = {a, b, c, d}
集合B = {c, d, e, f}
A∩B = {c, d}
A∪B = {a, b, c, d, e, f}
交集中有2个元素,并集中有6个元素,因此:
杰卡德系数为:J(A,B) = 2/6 = 1/3
杰卡德距离为:1 - J(A,B) = 2/3
评价聚类质量:
在数据集上使用聚类方法之后,需要评估结果簇的质量。
两类方法:外在方法和内在方法
外在方法:有监督的方法,需要基准数据。用一定的度量评判聚类结果与基准数据的符合程度。
内在方法:无监督的方法,无需基准数据。类内聚集程度和类间离散程度。
REF
https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=aladdin
https://wenku.baidu.com/view/9a8b6025a5c30c22590102020740be1e650eccec.html (聚类结果评价)
(聚类结果评价)
https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=ge_ala