一个聚类算法只需要知道如何计算相似度就可以了

K-均值(k-means)聚类算法:该算法可以发现K个不同的簇,每个簇的中心采用簇中所安置的均值计算而成。

分层聚类算法

① BIRCH算法:结合了层次聚类算法和迭代的重定位方法,首先用自底向上的层次算法,然后用迭代的重定位来改进效果。

② DBSCAN算法:具有噪声的基于密度的聚类方法

③ CURE算法:选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或对象来代表一个簇,而是选择数据空间中固定数目的具有代表性的点。每一个簇有多于一个的代表点使得 CURE 可以适应非球形的几何形状。簇的收缩或凝聚可以有助于控制孤立点的影响。因此,CURE 对于孤立点的处理更加好,而且能够识别非球形和大小变化较大的簇。

K-均值聚类算法缺点:最终得到的不是全局最优,大规模数据收敛速度较慢。

K-均值算法的工作流程:一堆数据,选择k个初始点作为质心,为数据集中的每个点找距离它最近的质心,把它分配的该质心所属的簇。最后把每个簇的质心更新为该簇所有点的平均值。(该过程不断迭代)终止条件:数据点的簇分配结果不再改变。

聚类的目标:保持簇数量不变的情况下提高簇的质量。

SSE(误差平方和):用来度量聚类效果,SSE值越小表示数据点越接近它们的质心,聚类效果也越好