Euler Clustering, Jian-Sheng Wu, Wei-Shi Zheng, Jian-Huang Lai, IJCAI2013

1 简介(Introduction)

Euler Clustering 作为一种特殊的 Kernel k-means 聚类算法,明式地映射实数空间的数据到相同维数的复数空间,使得它可以有效地处理大规模问题。

2 预备知识(Preliminary)

2.1 基于 Kernel 的 k-means(Kernel k-means)

Kernel k-means 首先使用一个核函数隐式的把数据点从原空间映射到 RKHS 空间(无限维空间数据线性可分),然后在 RKHS 空间 对数据进行聚类。

具体来说,

欧拉聚类(Euler Clustering)_数据

为数据集,

欧拉聚类(Euler Clustering)_聚类_02

为映射函数,C 为聚类个数。kernel k-means 使用 通过最小化 distortion error 来聚类:

欧拉聚类(Euler Clustering)_clustering_03


其中 mc 为 聚类中心(representative prototype):

欧拉聚类(Euler Clustering)_clustering_04


获得最优的 mc 后,剩余的数据点分配给离它最近的 prototypes :

欧拉聚类(Euler Clustering)_聚类_05


但是由于数据点在 RKHS 空间的隐式表示,因此 cluster prototypes 不能被明式表示,因此只能使用 kenel trick 来计算 mc

欧拉聚类(Euler Clustering)_clustering_06


明显它要求较大的内存来存储 full kernel matrix 。每次迭代要求 O(Cn2)

2.2 欧拉 Kernel(Euler Kernel)

不同于一般的 Mercer 核, Euler Kernel 矩阵 定义在复数空间(complex space)。Euler Kernel 矩阵的 第 (j, q) 个元为

欧拉聚类(Euler Clustering)_kernel_07


此外我们有 KH=K ,因为 Kqj=K−jq,− 表示复共轭操作(complex conjugate operator)。

Euler kernel 映射数据从 d 维实数空间(real space ) 到 d 维复数 RKHS 空间(complex RKHS space )

欧拉聚类(Euler Clustering)_算法_08


其中 i 为虚数单位 ( imaginary unit)。

因此, RKHS 中 两个映射点的平方Euclidean距离函数 d( ; )

欧拉聚类(Euler Clustering)_kernel_09


欧拉聚类(Euler Clustering)_数据_10


这里 d 为一个实数。所以尽管 kernel matrix 定义在复数空间,d 仍然可以用来度量两个点之间的相似度。

3 欧拉聚类(Euler Clustering)

Euler kernel 明式地映射数据从实数空间到复数空间,它在复数空间的映射可以明式地表示。因此, cluster representative prototype mc

欧拉聚类(Euler Clustering)_聚类_11


根据 kernel k-means,有最优的 mc 为

欧拉聚类(Euler Clustering)_聚类_12


由(6)有

欧拉聚类(Euler Clustering)_clustering_13


由此我们推导出 Euler clustering 的准则:

欧拉聚类(Euler Clustering)_clustering_14

全部的算法如下:

欧拉聚类(Euler Clustering)_数据_15


时间复杂性:

欧拉聚类(Euler Clustering)_算法_16

参考及引用文献
[1] ​​​Euler Clustering​​​
[2] [Euler Principal Component Analysis] ()