其他距离度量

ß马氏距离(马哈拉诺比斯是印度统计学家)

Þ利用协方差矩阵,排除变量间相关性的影响

ß海明距离(源于电报编码中的海明码)

Þ变成一样需替换几次,用于编码

ß杰卡德相似系数

Þ两个集合,交集与并集之比,用于集合比较

K-means聚类算法

ß首先输入k的值,即我们希望将数据集经过聚类得到k个分组。

ß(从数据集中)随机选择k个数据点作为初始“质心”(Centroid)

ß对集合中每一个样例,计算与每一个质心的距离,离哪个质心距离近,就算属于该质心所代表的分组。

ß这时每一个分组内都聚集了一些样例,通过算法选出分组的新质心(注意选出的质心已经是虚拟的了)。

ß如果新老质心之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,则收敛),可以认为聚类已经达到期望的结果,算法终止。

ß如果新老质心距离变化很大,需要迭代3~5步骤。