聚类算法可以用准确率评判吗聚类算法性能指标

转载

蓝月亮 2024-04-25 16:55:39

文章标签 聚类算法可以用准确率评判吗聚类相似度取值 文章分类 机器学习人工智能

1 聚类

聚类是无监督学习，聚类试图将样本划分为若干个不想交的子集，每个子集称为簇。常见的无监督学习除了聚类还有密度估计、异常检测等。

聚类既可以寻找数据内在分布结构，也可以作为分类任务的前驱。

2 性能度量

聚类性能度量即聚类“有效性指标”（validity index），聚类希望的结果是“簇间相似度低”而 “簇内相似度”高。

聚类的性能度量大致分两类：

外部性能指标：聚类结果和某个reference model比较

内部性能指标：直接考察聚类结果

对数据集

聚类算法可以用准确率评判吗聚类算法性能指标_取值

,通过聚类簇划分C={C₁,C₂,…C_k},参考模型C*={ C₁*,C₂^*,…C_k^*

}。令λ与λ^*表示簇标记向量。将样本两两配对：

聚类算法可以用准确率评判吗聚类算法性能指标_相似度_02

其中a+b+c+d = m(m-1)/2,常用的聚类性能外部指标：

聚类算法可以用准确率评判吗聚类算法性能指标_聚类_03

聚类算法可以用准确率评判吗聚类算法性能指标_聚类算法可以用准确率评判吗_04

上述性能度量值域[0,1]，越大越好

考虑聚类簇划分C={C₁,C₂,…C_k},定义

聚类算法可以用准确率评判吗聚类算法性能指标_取值_05

dist()计算样本间距离,μ代表簇中心点,avg(C)代表簇C的平均距离,diam(C)对应簇C的最远距离,d_min(c_i,c_j)对应簇C_i和C_j最近样本距离,d_cen(C_i,C_j)对应簇C_i和C_j中心距离

常用聚类性能度量内部指标：

聚类算法可以用准确率评判吗聚类算法性能指标_相似度_06

DBI越小越好，DI越大越好

3 距离计算

函数dist()基本性质：

聚类算法可以用准确率评判吗聚类算法性能指标_相似度_07

聚类算法可以用准确率评判吗聚类算法性能指标_取值_08

对于有序属性，常用的是闵可夫斯基距离

聚类算法可以用准确率评判吗聚类算法性能指标_取值_09

p=2 是欧氏距离

聚类算法可以用准确率评判吗聚类算法性能指标_相似度_10

p=1时候曼哈顿距离：

聚类算法可以用准确率评判吗聚类算法性能指标_相似度_11

属性：我们将属性分为连续属性和离散属性。前者在定义域上取值无数，后者取值有限个。在距离计算时，属性上是否定义了序很重要。连续属性和离散属性对于有序属性在计算距离的时候的性质较为相似，例如{1,2,3}和[1,3]；然而{飞机，火车，轮船}这样无序属性无法直接计算距离，对于无序属性可采用VDM距离，m_u,a,i表示第i个样本簇在属性U上取值为a的样本数。k为样本簇数，则属性u上的两个离散值a,b的VDM距离：

聚类算法可以用准确率评判吗聚类算法性能指标_聚类算法可以用准确率评判吗_12