聚类模型

1、层次聚类
2、原型聚类-K-means
3、模型聚类-GMM
4、EM算法-LDA主题模型
5、密度聚类-DBSCAN
6、图聚类-谱聚类

六、图聚类-谱聚类

谱聚类是一种定义在图上的聚类算法,与其说是聚类算法,更是一种图的向量表示。基于向量表示之后,一般可以采用其他的聚类方法完成最后聚类结果。所以谱聚类的类表示既依赖于向量表示也与之后采用的聚类算法有关。

对于一个图图像识别聚类 聚类图谱_聚类算法,我们一般用点的集合图像识别聚类 聚类图谱_图像识别聚类_02和边的集合图像识别聚类 聚类图谱_聚类_03来描述。即为图像识别聚类 聚类图谱_聚类算法_04。其中图像识别聚类 聚类图谱_图像识别聚类_02即为我们数据集里面所有的点图像识别聚类 聚类图谱_聚类算法_06。 谱聚类根据图上节点之间的关系(关系度量:图像识别聚类 聚类图谱_聚类算法_07邻域,图像识别聚类 聚类图谱_图像识别聚类_08近邻图,全连接图),构建一个邻接矩阵来描述图像识别聚类 聚类图谱_图像识别聚类_09个节点之间的相似性:
图像识别聚类 聚类图谱_聚类算法_10
由节点之间关系的对称性,显然相似性矩阵图像识别聚类 聚类图谱_聚类算法_11是对称矩阵。现在,我们希望学习到节点的向 量表示图像识别聚类 聚类图谱_谱聚类_12,使得相似性越大的两个节点图像识别聚类 聚类图谱_聚类算法_13的向量表示图像识别聚类 聚类图谱_聚类_14的差异尽可能的小,因此,我们可以定义如下损失函数:
图像识别聚类 聚类图谱_图像识别聚类_15
即当图像识别聚类 聚类图谱_聚类_16大时,相似性越大,图像识别聚类 聚类图谱_谱聚类_17尽可能小。上式经过如下变换,也就得到了谱聚类与拉普拉斯矩阵的关系:
图像识别聚类 聚类图谱_图像识别聚类_18
其中图像识别聚类 聚类图谱_聚类_19图像识别聚类 聚类图谱_聚类_16按行求和(按列求和),因此矩阵图像识别聚类 聚类图谱_聚类算法_21图像识别聚类 聚类图谱_聚类_16的按行求和(按列求和)的对角矩阵。
图像识别聚类 聚类图谱_聚类算法_23
其中图像识别聚类 聚类图谱_聚类算法_24其中图像识别聚类 聚类图谱_图像识别聚类_25,我们称图像识别聚类 聚类图谱_谱聚类_26为拉普拉斯矩阵。

因此,当我们约束图像识别聚类 聚类图谱_图像识别聚类_27时,我们的目标函数为:
图像识别聚类 聚类图谱_谱聚类_28
其中图像识别聚类 聚类图谱_聚类_29表示所有样本在图像识别聚类 聚类图谱_图像识别聚类_08维构成的向量,由图像识别聚类 聚类图谱_谱聚类_31.所以目标函数右乘图像识别聚类 聚类图谱_聚类算法_32图像识别聚类 聚类图谱_图像识别聚类_33,因此,最小化目标函数等价图像识别聚类 聚类图谱_谱聚类_26的前图像识别聚类 聚类图谱_谱聚类_35个最小特征值相加,对应的图像识别聚类 聚类图谱_谱聚类_36为前图像识别聚类 聚类图谱_谱聚类_35个最下特征值对应的特征向量构成。就此目标函数求解问题转变为特征向量求解问题。

得到图节点的向量表示之后,后面就可以采用常用的聚类算法进行聚类,比如Kmeans。

谱聚类算法流程:

1)确定图上节点关系度量,得到相似性度量矩阵

2)根据相似性度量矩阵得到拉普拉斯矩阵

3)对拉普拉斯矩阵求解前图像识别聚类 聚类图谱_谱聚类_35个最小特征值对应的特征向量,即为节点的向量表示

4)采用聚类算法对节点向量进行聚类

谱聚类特点:

1)相似性度量矩阵限制了数据的表示为图像识别聚类 聚类图谱_聚类_39

2)谱聚类对相似性度量矩阵的向量表示存在损失

3)谱聚类的向量表示数学形式非常漂亮,代码实现方便

4)聚类的效果与相似性度量矩阵的计算,表示,以及最终采用的聚类算法有关