聚类分析

  • 数据聚类理论理论
  • 一、聚类定义
  • 二、聚类与分类区别
  • 三、聚类分析的目的
  • 四、聚类主要方法


数据聚类理论理论

一、聚类定义

数据聚类 ( Cluster analysis )是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。

聚类分析是研究“物以类聚”的一种科学有效的方法,由实验测试得到的数据是原始数据,原始数据是没有进行分类的、无规律的、错综复杂的变量,要使得这些数据能够反映出一定的规律性或特殊的分类性,需要对数据或变量进行聚类分析,以使数据或变量呈现一定的分门别类的特征。

关键:聚类的关键是如何度量对象间的相似性。较为常见的用于度量对象的相似度的方法有距离、向量余弦等。

二、聚类与分类区别

① 聚类与分类的最大不同在于分类的目标事先已知,而聚类则不知道。

② 在分类规则上聚类也与分类不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。

③ 分类是事先定义好类别 ,类别数不变,分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴;聚类则没有事先预定的类别,类别数不确定,聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。

④ 分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。

注:分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。

三、聚类分析的目的

聚类分析的目的是分析数据是否属于各个独立的分组,使一组中的成员彼此相似,而与其他组中的成员不同。它对一个数据对象的集合进行分析,但与分类分析不同的是,所划分的类是未知的,因此,聚类分析也称为无指导或无监督的( Unsupervised )学习。

四、聚类主要方法

聚类分析的一般方法是将数据对象分组为多个类或簇( Cluster ),在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差异较大。由于聚类分析的上述特征,在许多应用中,对数据集进行了聚类分析后,可将一个簇中的各数据对象作为一个整体对待。

注意:将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇。

常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、 CLARANS 、 BIRCH 、CLIQUE、DBSCAN 等。