1、聚类:
① 聚类就是对大量位置标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同类别,使类别内的数据比较相似,类别之间的数据相似度比较小;属于无监督学习
② 聚类算法的重点是计算样本之间的相似度,也称为样本间的距离
③ 和分类算法的区别
分类算法是有监督学习,基于有标注的历史数据进行算法模型构建
聚类算法是无监督学习,数据集中的数据是没标注的
2、相似度/距离公式
① 闵可夫斯基距离:
当p为1的时候是曼哈顿距离(Manhattan)
当p为2的时候是欧式距离(Euclidean)
当p为无穷大的时候是切比雪夫距离(Chebyshev)
② 标准化欧式距离(Standardized Euclidean Distance):
3、相似度/距离公式1
① 夹角余弦相似度(Cosine)
② KL距离(相对熵)
4、相似度/距离公式2
① 杰拉德相似系数(Jaccard)
② Pearson相关系数
5、聚类思想
① 给定一个有M个对象的数据集,构建一个具有k个簇的模型,其中k<=M。满足下面条件:
每个簇至少包含一个对象
每个对象属于且仅属于一个簇
将满足上述条件的k个簇成为一个合理的聚类划分
② 基本思想:对于给定的类别数据k,首先给定初始划分,通过迭代改变样本和簇的隶属关系,使得每次处理后得到的划分方式比上一次的好(总的数据集之间的距离和变小了)
6、K-means算法
① K-means算法,也称为K-平均或者K-均值,是一种使用广泛的最基础的聚类算法,一般作为掌握聚类算法的第一种算法
② 假设输入样本为
;则算法步骤为(使用欧几里得距离公式) 选择初始化的k个类别中心
;
对于每个样本 ,将其标记为距离类别中心 最近的类别 j
更新每个类别的中心点 为隶属该类别的所有样本的均值
重复上面两步操作,直到达到某个终止条件
③ 终止条件
迭代次数、最小平方误差MSE、簇中心点变化率
7、K-means算法概述
① 记K个簇中心分别为
;每个簇样本数量为
② 使用平方误差作为目标函数(欧几里得距离),公式为:
③ 要获取最优解,也就是目标函数需要尽可能的小,对J函数求偏导数,可以得到簇中心点a更新的公式为:
8、K-means算法思考
① K-means算法在迭代过程中使用所有点的均值作为新的质点(中心点),如果簇中存在异常点,将导致均值偏差比较严重
比如一个簇中有2、4、6、8、100五个数据,那么新的质点为24,显然这个质点离绝大多数点都比较远,在当前情况下,使用中位数6可能比使用均值的想法更好,使用中位数的聚类方式叫做K-Mediods聚类(K中值聚类)
② K-means算法是初值敏感的,选择不同的初始化值可能导致不同的簇划分规则
为了避免这种敏感导致的最终结果异常性,可以常用初始化多套初始节点构造不同个分类规则,然后选择最优的构造规则
9、K-means算法优缺点
① 缺点
K值是用户给定的,在进行数据处理前,K值是未知的,不同的K值得到的结果也不一样
对初始簇中心点是敏感的
不适合发现非凸形状的簇或者大小差别较大的簇
特殊值(离群值)对模型的影响比较大
② 优点
理解容易,聚类效果不错
处理大数据集的时候,该算法可以保证较好的伸缩性和高效率
当簇近似高斯分布的时候,效果非常不错
10、二分K-means算法
① 解决K-means算法对初始簇心比较敏感的问题,二分K-means算法是一种弱化初始质心的一种算法,具体思路步骤如下:
将所有样本数据作为一个簇放到一个队列中
从队列中选择一个簇进行K-means算法划分,划分为两个子簇,并将子簇添加到队列中
循环迭代第二步操作,直到终止条件达到(聚簇数量,最小平方误差,迭代次数等)
队列中的簇就是最终的分类簇聚合
② 从队列中选择划分聚簇的规则一般有两种:
对所有簇计算误差和SSE(SSE也可以认为是距离函数的一种变种), 选择SSE最大的聚簇进行划分操作(优先)
选择样本数据量最多的簇进行分操作
11、K-Means++算法
① 解决K-Means算法对初始簇心比较敏感的问题,K-Means++算法和K-Means算法的区别主要在初始化K个中心点的选择方面,K-Means算法使用随机给定的方式,K-Means++算法采用下列步骤给定k个初始质点:
从数据集中任选一个节点作为第一个聚类中心
对数据集中的每个点x,计算x到所有已有聚类中心点的距离和D(X),基于D(X)采用线性概率选择出下一个聚类中心点(距离较远的一个点成为新增的一个聚类中心点)
重复步骤2直到找到k个聚类中心点
② 缺点:由于聚类中心点选择过程中的内在有序性,在扩展方面存在着性能方面的问题(第k个聚类中心点的选择依赖前k-1个聚类中心点的值)
12、K-Means||算法
解决K-Means++算法缺点而产生的一种算法;只要思路是改变每次遍历时候的取样规则,并非按照K-Means++算法每次遍历只获取一个样本,而是每次获取K个样本,重复该取样操作O(logn)次,然后再将这些抽样出来的样本聚类出K个点,最后使用这K个点作为K-Means算法的初始化聚簇中心点。实践证明:一般5次重复采用就可以保证一个比较好的聚类中心点
13、Canopy算法
① Canopy算法属于一种"粗"聚类算法,执行速度较快,但精度较低,算法执行步骤如下:
给定样本列表L=x1,x2,...,xm以及先验值r1和r2(r1 > r2)
从列表L中获取一个节点P,计算P到所有聚簇中心点的距离(如果不存在聚簇中心,那么此时P形成一个新的聚簇),并选择出最小距离D(P,aj)
如果距离D小于r1,表示该节点属于该聚簇,添加到该聚簇列表中
如果距离D小于r2,表示该节点不仅仅属于该聚簇,还表示和当前聚簇中心点非常近,所以将该聚簇的中心点设置为该簇中所有样本的中心点,并将P从列表L中删除
如果距离D大于r1,那么节点P形成一个新簇
直到列表L中的元素数据不再有变化或者元素数量为0的时候,结束循环操作
② Canopy算法得到的最终结果的值,聚簇之间是可能存在重叠的,但是不会存在某个对象不属于任何聚簇的情况
14、Canopy算法常用应用场景
① 由于K-Means算法存在初始化中心敏感的问题,常用使用Canopy+K-Means算法混合形成进行模型构建
先使用canopy算法进行"粗"聚类得到K个聚类中心点
K-Means算法使用Canopy算法得到的K个聚类中心点作为初始中心点,进行"细"聚类
② 优点
执行速度快(先进行了一次聚簇中心点选择的预处理)
不需要给定K值,应用场景多
能够缓解K-Means算法对于初始化聚类中心点敏感的问题
15、Mini Batch K-Means算法
① Mini Batch K-Means算法是一种优化变种,采用小规模的数据子集(每次训练使用的数据集是在训练算法的时候随机抽取的数据子集)减少计算时间,同时试图优化目标函数;Mini Batch K-Means算法可以减少K-Means算法的收敛时间,而且产生的结果效果只是略差于标准K-Means散发
② 算法步骤如下
首先抽取部分数据集,使用K-Means算法构建出K个聚簇点的模型
继续抽取训练数据集中的部分数据集样本数据,并将其添加到模型中,分配给距离最近的聚簇中心点
更新聚簇的中心点
循环迭代第二步和第三步操作,直到中心点稳定或者达到迭代次数,停止计算操作
16、聚类算法的衡量指标
① 混淆矩阵
② 均一性:一个簇中只包含一个类别的样本,则满足均一性;其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和)
③ 完整性:同类别样本被归类到相同簇中,则满足完整性;每个聚簇中正确分类的样本数占该类型的总样本比例的和
④ V-measure:均一行和完整性的加权平均
⑤ 调整兰德系数(ARI):兰德系数(Rand Index), RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合
其中C表示实际类别信息,K表示聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K中都是不同类别的元素对数,
表示数据集中可以组成的对数 ARI的取值范围[-1, 1],值越大,表示聚类结果和真实情况越吻合。从广义的角度来讲,ARI是衡量两个数据分布的吻合程度的
⑥ 调整互信息(AMI):类似ARI,内部使用信息熵
⑦ 轮廓系数(Silhouette)
簇内不相似度:计算样本i到同簇其他样本的平均距离为a(i);a(i)越小,表示样本i越应该被聚类到该簇,簇C中的所有样本的a(i)的均值被称为簇C的簇不相似度
簇间不相似度:计算样本i到其他簇C(j)的所有样本的平均距离b(ij) ,
; 越大,表示样本i越不属于其他簇
轮廓系数:s(i)值越接近1表示样本i聚类越合理,越接近-1,表示样本i应该分类到另外的簇中,近似为0,表示样本i应该在边界上;所有样本的s(i)的均值被称为聚类结果的轮廓系数
17、层次聚类
层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止,传统的层次聚类算法主要分为两大算法:
凝聚的层次聚类:AGNES算法(AGglomerative NESting)==>采用自底向上的策略,最初将每个对象作为一个簇,然后这些簇根据某些准则被一步一步合并,两个簇间的间距可以由这两个不同簇中距离最近的数据点的相似度来确定;聚类的合并过程反复进行直到所有对象满足簇数目
分裂的层次聚类:DIANA算法(DIvisive ANALysis)==>采用自顶向下的策略,首先将所有对象置于一个簇中,然后按照某种既定的规则逐渐细分为越来越小的簇(比如最大的欧式距离),直到达到某个终结条件(簇数目或者簇距离达到阀值)
18、AGNES算法与DIANA算法优缺点
① 简单,理解容易
② 合并点/分裂点选择不太容易
③ 合并/分类的操作不能进行撤销
④ 大数据集不太合适
⑤ 执行效率较低
,t为迭代次数,n为样本点数
19、AGNES算法中簇间距离
① 最小距离(SL距离)
两个聚簇中最近的两个样本之间的距离(single/word-linkage聚类法)
最终得到模型容易形成链式结构
② 最大距离(CL距离)
两个聚簇中最远的两个样本之间的距离(complete-linkage聚类法)
如果存在异常值,那么构建可能不太稳定
③ 平均距离(AL距离)
两个聚簇中样本间两两距离的平均值(average-linkage聚类法)
两个聚簇中样本间两两距离的中值(median-linkage聚类法)
20、层次聚类优化算法
① BIRCH算法(平衡迭代削减聚类法):聚类特征使用3元组进行一个簇的相关信息,通过构建满足分支因子和簇直径限制的聚类特征树来求聚类,聚类特征树其实是一个具有两个参数分支因子和类直径的高度平衡树;分枝因子规定了树的每个节点的子女的最多个数,而类直径体现了对这一类点的距离范围;非叶子节点为它子女的最大特征值;聚类特征树的构建可以是动态过程的,可以随时根据数据对模型进行更新操作
优缺点
适合大规模数据集,线性效率
只适合分布呈凸形或者球形的数据集、需要给定聚类个数和簇之间的相关参数
② CURE算法(使用代表点的聚类法):该算法先把每个数据点看成一类,然后合并距离最近的类直至个数为所要求的个数为止。但是和AGNES算法的区别是:取消了使用所有点或中心点+距离来表示一个类,而是从每个类中抽取固定数量,分布较好的点作为此类的代表点,并将这些代表点乘以一个适当的收缩因子,使它们更加靠近类中心点。代表点的收缩特性可以调整模型可以匹配哪些非球形的场景,而且收缩因子的使用可以减少噪音对聚类的影响
优缺点:
能够处理非球形分布的应用场景
采用随机抽样和区分的方式可以提高算法的执行效率
21、密度聚类方法
① 密度聚类方法的指导思想:只要样本点的密度大于某个阀值,则将该样本添加到最近的簇中
② 这类算法可以克服基于距离的算法只能发现凸聚类的缺点,可以发现任意形状的聚类,而且对噪声数据不敏感
③ 计算复杂度,计算量大
④ 常用算法
DNSCAN
密度最大值算法
22、DNSCAN算法
① DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
② 一个比较有代表性基于密度的聚类算法,相比于基于划分的聚类方法和层次聚类方法,DBSCAN算法将簇定义为密度相连的点的最大集合,能够将足够高密度的区域划分为簇,并且在具有噪声的空间数据商能够发现任意形状的簇
③ DBSCAN算法的核心思想是:用一个点的领域内的邻居点数衡量该点所在空间的密度,该算法可以找出形状不规则的cluster,而且聚类的时候事先不需要给定cluster的数量
23、DBSCAN算法基本概念
①
邻域(ε neighborhood,也称为Eps):给定对象在半径ε内的区域
② 密度(density):ε邻域中x的密度,是一个整数值,依赖于半径ε
③ MinPts定义核心点时的阀值,也简称为M
④ 核心点(core point):如果p(x) >= M,那么称x为X的核心点;记由X中所有核心点构成的集合为Xc,并记Xnc=X\Xc表示有X中所有非核心点构成的集合。直白来讲,核心点对应于稠密区域内部的点
⑤ 边界点(border point):如果非核心点x的ε邻域中存在核心点,那么认为x为X的边界点。由X中所有的边界点构成的集合为
。直白来讲,边界点对应稠密区域边缘的点
⑥ 噪音点(noise point):集合中除了边界点和核心点之外的点都是噪音点,所有噪音点组成的集合叫做 ;直白来讲,噪音点对应稀疏区域的点
⑦ 直接密度可达(directly density-reachable):给定一个对象集合X,如果y是在x的ε邻域内,而且x是一个核心对象,可以说对象y从对象x出发是直接密度可达的
⑧ 密度可达(density-reachable):如果存在一个对象链
,如果满足
是从
直接密度可达的,那么称
是从
密度可达的
⑨ 密度相连(density-connected):在集合X中,如果存在一个对象o,使得对象x和y是从o关于ε和m密度可达的,那么对象x和y是关于ε和m密度相连的
⑩ 簇(cluster):一个基于密度的簇是最大的密度相连对象的集合C;满足以下两个条件,
Maximality:若x属于C,而且y是从x密度可达的,那么y也属于C
Connectivity:若x属于C,y也属于C,则x与y是密度相连的
24、DBSCAN算法流程
① 算法流程:
如果一个点x的ε邻域包含多余m个对象,则创建一个x作为核心对象的新簇
寻找并合并核心对象直接密度可达的对象
没有新点可以更新簇的时候,算法结束
② 算法特征描述
每个簇至少包含一个核心对象
非核心对象可以是簇的一部分,构成簇的边缘
包含过少对象的簇被认为是噪声
25、DBSCAN算法的优缺点
① 优点
不需要事先给定cluster的数目
可以发现任意形状的cluster
能够找出数据中的噪音,且对噪音不敏感
算法只需要两个输入参数
聚类结果几乎不依赖节点的遍历顺序
② 缺点
DBSCAN算法聚类效果依赖距离公式的选取,最常用的距离公式为欧几里得距离。但是对于高维数据,由于维数太多,距离的度量已变得不是那么重要
DBSCAN算法不适合数据集中密度差异很小的情况
26、密度最大值聚类算法(MDCA)
① MDCA(Maximum Density Clustering Application):算法基于密度的思想引入划分聚类中,使用密度而不是初始点作为考察簇归属情况的依据,能够自动确定簇数量并发现任意形状的簇;另外MDCA一般不保留噪声,因此也避免了阀值选择不当情况下造成的对象丢失情况
② MDCA算法的基本思路是寻找最高密度的对象和它所在稠密区域;MDCA算法从原理上来讲,和密度的定义没有关系,采用任意一种密度定义公式即可,一般情况下采用DBSCAN算法中密度定义方式
27、MDCA概念
① 最大密度点
② 有序序列: 根据所有对象与
的距离对数据重新排序
③ 密度阀值density0;当节点的密度值大于密度阀值时,认为该节点属于一个比较固定的簇,在第一次构建基本簇的时候,就将这些节点添加到对应簇中,如果小于这个值的时候,暂时以为该节点为噪音节点
④ 簇间距离:对于两个簇C1和C2之间的距离,采用两个簇中最近两个节点之间的距离作为簇间距离
⑤ 聚簇距离阀值dist0:当两个簇的间距离小于给定阀值的时候,这两个簇的结果数据会进行合并操作
⑥ M值:初始簇中最多数据样本个数
28、MDCA算法聚类过程步骤
① 将数据集划分为基本簇
对数据集X选取最大密度点
,形成以最大密度点为核心的新簇
,按照距离排序计算出序列
对序列的前M个样本数据进行循环判断,如果节点的密度大于等于density0,那么将当前节点添加
中; 循环处理剩下的数据集X,选择最大密度
,并构建基本簇
,直到X中剩余的样本数据的密度均小于density0
② 使用凝聚层次聚类的思想,合并较近的基本簇,得到最终的簇划分
在所有簇中选择距离最近的两个簇进行合并,合并要求是:簇间距小于等于dist0,如果所有簇中没有簇间距小于dist0的时候,结束合并操作
③ 处理剩余节点,归入最近的簇
最常用、最简单的方式是:将剩余样本对象归入到最近的簇
29、谱聚类
① 谱聚类是基于谱图理论基础上的一种聚类方法,与传统的聚类方法相比:具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点
② 通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据进行聚类的目的;其本质是将聚类问题转换为图的最优划分问题,是一种点对聚类算法
③ 谱聚类算法将数据集中的每个对象看做图的顶点V,将顶点间的相似度化为相应顶点连接边E的权值w,这样就构成了一个基于相似度的无向加权图 G(V,E),于是聚类问题就转换为图的划分问题。基于图的最优划分规则就是子图内的相似度最大,子图间的相似度最小
④ 谱聚类的构建过程只要包含以下步骤:
构建表示对象相似度的矩阵W
构建度矩阵D(对角矩阵)
构建拉普拉斯矩阵(L)
计算矩阵L的前k个特征值的特征向量(k个列向量)
将k个列向量组成矩阵U
对矩阵U中的n行数据利用K-Means或者其他经典聚类算法进行聚类得出最终结果
30、拉普拉斯矩阵变形
① 拉普拉斯矩阵
② 对称拉普拉斯矩阵
③ 随机游走拉普拉斯矩阵
31、谱聚类应用场景及面临的问题
① 场景
图形聚类、计算机视觉、非凸球形数据聚类
② 面临问题
相似度矩阵的构建问题:业界一般使用高斯相似函数或者k近邻来做为相似度量,一般建议使用k近邻的方式来计算相似度权值
聚类数目的给定
如何选择特征向量
如何提高谱聚类的执行效率