试用谱聚类算法进行聚类分析

转载

mob64ca1403c772 2024-09-10 12:57:10

文章标签 试用谱聚类算法进行聚类分析谱聚类无向权重图拉普拉斯矩阵图切分 文章分类 机器学习人工智能

谱聚类

1. 基本原理

它的主要思想：把所有数据看成空间中的点，这些点之间可以用变连接起来，距离较远的两个点之间的边权重较低，而距离较近的两个点之间的权重较高，通过对所有数据点组成的图进行切图，让切图后的不同的子图间边权重和尽可能小（即距离远），而子图内的边权重和尽可能高（即距离近）。

难点：

如何构建图？
如何切分图？

2. 谱聚类基础

2.1 无向权重图

对于一个图 $试用谱聚类算法进行聚类分析_无向权重图$ ，我们一般用点集合 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_02$ 和边集合 $试用谱聚类算法进行聚类分析_图切分_03$ 来描述，即 $试用谱聚类算法进行聚类分析_谱聚类_04$ 。我们定义权重 $试用谱聚类算法进行聚类分析_图切分_05$ 为点 $试用谱聚类算法进行聚类分析_谱聚类_06$ 之间的权重，由于是无向图，故 $试用谱聚类算法进行聚类分析_图切分_07$ 。

对于有边连接的两个点 $试用谱聚类算法进行聚类分析_谱聚类_08$ ， $试用谱聚类算法进行聚类分析_图切分_09$ ；对于没有边连接的两个点 $试用谱聚类算法进行聚类分析_谱聚类_08$ ， $试用谱聚类算法进行聚类分析_图切分_11$ 。

对于图中的任意一个点 $试用谱聚类算法进行聚类分析_无向权重图_12$ ，它的度 $试用谱聚类算法进行聚类分析_谱聚类_13$ 定义为和它相连的所有边权重之和，即
$试用谱聚类算法进行聚类分析_拉普拉斯矩阵_14$

利用每个点度的定义，我们可以得到一个 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_15$ 的度矩阵 $试用谱聚类算法进行聚类分析_图切分_16$ ，它是一个对角阵，只有主对角有值，对应第 $试用谱聚类算法进行聚类分析_谱聚类_17$ 行为第 $试用谱聚类算法进行聚类分析_谱聚类_17$ 个点的度；利用所有点之间的权重，我们可以得到图的邻接矩阵 $试用谱聚类算法进行聚类分析_图切分_19$ ，它也是一个 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_15$ 矩阵，第 $试用谱聚类算法进行聚类分析_谱聚类_17$ 行的第 $试用谱聚类算法进行聚类分析_谱聚类_22$ 个值对应权重 $试用谱聚类算法进行聚类分析_图切分_05$

除此之外，对于点集 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_24$ 的一个子集 $试用谱聚类算法进行聚类分析_无向权重图_25$ ，我们定义：
$试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_26$

2.2 拉普拉斯矩阵

拉普拉斯矩阵 $试用谱聚类算法进行聚类分析_图切分_27$ ，其性质如下：

对称矩阵，由于 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_28$ 都为对称矩阵
由于是对称矩阵，它的所有特征值都是实数
对于任意向量 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_29$ ，有
$试用谱聚类算法进行聚类分析_无向权重图_30$
由于拉普拉斯矩阵是半正定的，其对应的 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_31$ 个特征值都大于等于0。

3. 构建图——构建邻接矩阵

3.1 $试用谱聚类算法进行聚类分析_图切分_32$ 邻近法

通过设置一个阈值 $试用谱聚类算法进行聚类分析_图切分_32$ ，然后利用欧氏距离 $试用谱聚类算法进行聚类分析_图切分_34$ 度量任意两点 $试用谱聚类算法进行聚类分析_谱聚类_08$ 的距离，即 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_36$ ，然后根据 $试用谱聚类算法进行聚类分析_无向权重图_37$ 的大小关系，来定义邻接矩阵 $试用谱聚类算法进行聚类分析_图切分_19$ ：
$试用谱聚类算法进行聚类分析_无向权重图_39$

从上式可知，两点间的权重要么 $试用谱聚类算法进行聚类分析_图切分_32$ ，要么0，就没有其他信息了，距离远近度量很不明确，因此在实际应用中，很少采用。

3.2 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_41$ 近邻法

利用KNN算法遍历所有的样本点，取每个样本最近的 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_41$ 个点作为近邻，只有和样本距离最近的 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_41$ 个点之间的 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_44$ 。但是这种方法会造成重构之后的邻接矩阵 $试用谱聚类算法进行聚类分析_图切分_19$ 非对称，我们后面的算法需要邻接矩阵对称。为了解决这种问题，一般采取下面两种方法之一：

只要一个点在另一个点的K近邻中，就保留 $试用谱聚类算法进行聚类分析_图切分_46$
$试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_47$
必须两个点互为 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_48$ 近邻中，才能保留 $试用谱聚类算法进行聚类分析_图切分_46$
$试用谱聚类算法进行聚类分析_拉普拉斯矩阵_50$

3.3 全连接法

比前两种方法，第三种方法所有的点之间的权重值都大于0，因此称之为全连接法。可以选择不同的核函数来定义边权重，常用的有多项式核函数，高斯核函数和Sigmoid核函数。最常用的是高斯核函数RBF $试用谱聚类算法进行聚类分析_无向权重图_51$

在实际的应用中，使用第三种全连接法来建立邻接矩阵是最普遍的，而在全连接法中使用高斯径向核RBF是最普遍的。

4. 图的切分

对于无向图 $试用谱聚类算法进行聚类分析_无向权重图$ 的切分，我们的目标是将图 $试用谱聚类算法进行聚类分析_无向权重图_53$ 切成相互没有连接的 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_41$ 个子图，每个子图集合为： $试用谱聚类算法进行聚类分析_图切分_55$ ，它们满足 $试用谱聚类算法进行聚类分析_图切分_56$

对于任意两个子图点的集合 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_57$ ，我们定义 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_58$ 之间的切图权重为：
$试用谱聚类算法进行聚类分析_图切分_59$
那么对于我们 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_41$ 个子图点的集合： $试用谱聚类算法进行聚类分析_图切分_55$ ，我们定义切图 $试用谱聚类算法进行聚类分析_谱聚类_62$ 为：
$试用谱聚类算法进行聚类分析_谱聚类_63$
其中 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_64$ 为 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_65$ 的补集

那么如何切图可以让子图内的点权重和高，子图间的点权重和低呢？

一个自然的想法就是最小化 $试用谱聚类算法进行聚类分析_谱聚类_66$ , 但是可以发现，这种极小化的切图存在问题，如下图：

试用谱聚类算法进行聚类分析_拉普拉斯矩阵_67

为了避免最小切图导致的切图效果不佳，我们需要对每个子图的规模做出限定，一般来说，有两种切图方式，第一种是 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ ，第二种是 $试用谱聚类算法进行聚类分析_谱聚类_69$ 。

4.1 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ 切图

对于每个切图，不仅要考虑最小化 $试用谱聚类算法进行聚类分析_无向权重图_71$ ，还要考虑最大化每个子图样本的个数，即最小化 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ 函数：
$试用谱聚类算法进行聚类分析_谱聚类_73$

我们引入指示向量 $试用谱聚类算法进行聚类分析_图切分_74$ ，对于任意一个向量 $试用谱聚类算法进行聚类分析_图切分_75$ ，它是一个 $试用谱聚类算法进行聚类分析_谱聚类_76$ 维向量（ $试用谱聚类算法进行聚类分析_谱聚类_76$ 为样本数），我们定义 $试用谱聚类算法进行聚类分析_无向权重图_78$ 为：
$试用谱聚类算法进行聚类分析_拉普拉斯矩阵_79$
对于 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_80$ 有：
$试用谱聚类算法进行聚类分析_拉普拉斯矩阵_81$

由上式可知， $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ 函数表达式可改写为：
$试用谱聚类算法进行聚类分析_图切分_83$
其中 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_84$ 为矩阵的迹，即我们的 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ 切图，实际上是最小化迹 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_84$ 。注意到 $试用谱聚类算法进行聚类分析_无向权重图_87$ ，则我们的优化目标为：
$试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_88$

注意观察 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_84$ 的每一个优化子目标 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_80$ ，其中 $试用谱聚类算法进行聚类分析_图切分_91$ 是单位正交基， $试用谱聚类算法进行聚类分析_图切分_92$ 是对称矩阵，此时 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_80$ 是矩阵 $试用谱聚类算法进行聚类分析_图切分_92$ 的一个特征值。对于 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_80$ ，我们的目标是找到矩阵 $试用谱聚类算法进行聚类分析_图切分_92$ 的最小特征值，而对于 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_97$ ，我们的目标就是找到矩阵 $试用谱聚类算法进行聚类分析_图切分_92$ 的 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_41$ 个最小特征值。

4.2 $试用谱聚类算法进行聚类分析_谱聚类_69$ 切图

$试用谱聚类算法进行聚类分析_谱聚类_69$ 切图与 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_102$ 切图类似，只是将 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ 的分母 $试用谱聚类算法进行聚类分析_谱聚类_104$ 换成 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_105$ 。由于子图样本的个数多不一定权重就大，我们切图时基于权重也更符合我们的目标，因此一般来说 $试用谱聚类算法进行聚类分析_谱聚类_69$ 优于 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ ，定义如下：
$试用谱聚类算法进行聚类分析_拉普拉斯矩阵_108$

对应的， $试用谱聚类算法进行聚类分析_谱聚类_69$ 切图对指示向量 $试用谱聚类算法进行聚类分析_谱聚类_110$ 做了改进，定义如下：
$试用谱聚类算法进行聚类分析_无向权重图_111$

我们的优化目标依然是：（推导与 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ 完全一致）
$试用谱聚类算法进行聚类分析_无向权重图_113$
但是此时我们的 $试用谱聚类算法进行聚类分析_无向权重图_114$ ，而是 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_115$ 。推导如下：
$试用谱聚类算法进行聚类分析_拉普拉斯矩阵_116$
也就是说，我们的优化目标最终为：
$试用谱聚类算法进行聚类分析_谱聚类_117$
此时我们的 $试用谱聚类算法进行聚类分析_图切分_118$ 中的指示向量 $试用谱聚类算法进行聚类分析_谱聚类_110$ 不是单位正交基，所以我们令 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_120$ ，则 $试用谱聚类算法进行聚类分析_无向权重图_121$ ，也就是优化目标变成了：
$试用谱聚类算法进行聚类分析_图切分_122$
可以发现这个式子和 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ 基本一致，只是中间的 $试用谱聚类算法进行聚类分析_图切分_92$ 变成了 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_125$ 。这样，我们可以按照 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_68$ 的思想，求出 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_125$ 的 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_41$ 个最小特征值

一般来说， $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_125$ 相当于对拉普拉斯矩阵 $试用谱聚类算法进行聚类分析_图切分_92$ 做了一次标准化，即 $试用谱聚类算法进行聚类分析_图切分_131$

5. 谱聚类算法流程

$试用谱聚类算法进行聚类分析_图切分_132$

$试用谱聚类算法进行聚类分析_拉普拉斯矩阵_133$

根据邻接矩阵生成方式构建邻接矩阵 $试用谱聚类算法进行聚类分析_无向权重图_134$ ，构建度矩阵 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_135$
计算出拉普拉斯矩阵 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_136$
构建标准化后的拉普拉斯矩阵 $试用谱聚类算法进行聚类分析_图切分_137$
计算 $试用谱聚类算法进行聚类分析_图切分_137$ 最小的 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_139$ 个特征值所各自对应的特征向量 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_29$
将各自对应的特征向量 $试用谱聚类算法进行聚类分析_试用谱聚类算法进行聚类分析_29$ 组成的矩阵按行标准化，最终组成 $试用谱聚类算法进行聚类分析_无向权重图_142$ 维矩阵 $试用谱聚类算法进行聚类分析_谱聚类_143$
对 $试用谱聚类算法进行聚类分析_谱聚类_143$ 中的每一行作为一个 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_139$ 维样本，共 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_31$ 个样本，用输入的聚类方法进行聚类，聚类维数为 $试用谱聚类算法进行聚类分析_图切分_147$
得到簇划分 $试用谱聚类算法进行聚类分析_拉普拉斯矩阵_148$

6. 实例演示

import numpy as np 
import matplotlib.pyplot as plt 

from sklearn import cluster, datasets
from sklearn.preprocessing import StandardScaler

np.random.seed(0)

# 构建数据
n_samples = 1500
noisy_circles = datasets.make_circles(n_samples=n_samples, factor=0.5, noise=0.05)
noisy_moons = datasets.make_moons(n_samples=n_samples, noise=0.05)
blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)

data_sets = [
    (
        noisy_circles,
        {
            "n_clusters": 2
        }
    ),
    (
        noisy_moons,
        {
            "n_clusters": 2
        }
    ), 
    (
        blobs, 
        {
            "n_clusters": 3
        }
    )
]
colors = ["#377eb8", "#ff7f00", "#4daf4a"]
affinity_list = ['rbf', 'nearest_neighbors']

plt.figure(figsize=(17, 10))

for i_dataset, (dataset, algo_params) in enumerate(data_sets):
    # 模型参数
    params = algo_params

    # 数据
    X, y = dataset
    X = StandardScaler().fit_transform(X)

    for i_affinity, affinity_strategy in enumerate(affinity_list):
        # 创建SpectralCluster
        spectral = cluster.SpectralClustering(
            n_clusters=params['n_clusters'],
            eigen_solver='arpack', 
            affinity=affinity_strategy
        )

        # 训练
        spectral.fit(X)

        # 预测
        y_pred = spectral.labels_.astype(int)

        y_pred_colors = []

        for i in y_pred:
            y_pred_colors.append(colors[i])
        
        plt.subplot(3, 4, 4*i_dataset+i_affinity+1)
        plt.title(affinity_strategy)
        plt.scatter(X[:, 0], X[:, 1], color=y_pred_colors)

plt.show()

试用谱聚类算法进行聚类分析_图切分_149

7. 谱聚类算法小结

优点：

谱聚类只需要数据之间的邻接矩阵，因此对于处理稀疏数据的聚类很有效。这点传统聚类算法比如K-Means很难做到
由于使用了降维，因此在处理高维数据聚类时的复杂度比传统聚类算法好

缺点：

如果最终聚类的维度非常高，则由于降维的幅度不够，谱聚类的运行速度和最后的聚类效果均不好
聚类效果依赖于邻接矩阵，不同的邻接矩阵得到的最终聚类效果可能很不同

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Unity的协程怎么返回一个值给外面

下一篇：mysql报表高级函数

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯