数据挖掘中的聚类分析数据挖掘聚类分析

转载

mob64ca13fdd43c 2024-01-11 17:16:48

文章标签 数据挖掘中的聚类分析聚类算法聚类层次聚类 文章分类 数据挖掘人工智能

1. 聚类分析的提出

物以类聚，人以群分！志同而道合，即具有相同特点的物体（或人类）往往更容易走近，从而形成自己的一个“圈子”。

在现代零售行业，顾客群细分是最为常见的一种业务需求，一般情况下，会从客户性别、年龄、职业、消费金额等一个变量进行分组，或者几个简单变量交叉分组。但这种传统的客户细分模式往往会体现以下弊端：

1）客户细分之前，需要人为指定分类变量，需要用几个变量、什么变量往往受人为因素影响较大。

2）人为制定的分类属性，往往体现了群体的局部特征，并不能描述群体的整体特征。

相比而言，聚类分析是解决传统客户细分的有效方法。它能够将数据样本，在没有先验知识的前提下，依据数据的整体属性，依照其内在的亲疏程度进行自动分组，能够使组内个体尽可能亲密，组间个体尽可能疏远。

此处所指，没有先验知识是无需提前设定分类属性；亲疏程度一般有两个评估标准，相似程度和差异程度。

2. 聚类算法分类

依照不同的分类标准，可以从不同角度对聚类算法进行划分：

（1）聚类结果角度

聚类算法可以分为覆盖聚类算法和非覆盖聚类算法。覆盖聚类算法指的是任何一个个体都会隶属于至少一个类，反之则为非覆盖聚类算法。

聚类算法还可以分为层次聚类和非层次聚类，层次聚类指的存在一个类属于另外一个类的子集，反之则成为非层次聚类。

聚类算法还可以分为确定聚类和模糊聚类。确定聚类即任意两个类的交集为空，任何一个个体只能属于一个类，否则称为模糊聚类。

（2）聚类变量角度

变量一般分为数值型变量和分类型变量。同样，依照聚类变量角度，聚类算法可以分为数值型聚类算法、分类型聚类算法和混合型聚类算法。

（3）聚类的原理角度

依照聚类的原理，聚类算法一般可以分为划分聚类（Partitional clusting）算法、层次聚类（Hierarchical clusting）算法、基于密度的聚类（Density-based clusting）算法以及网格聚类（Grid clusting）算法等。

目前较为流行的聚类算法有K-Means聚类算法、两步聚类算法、Kohonen网络聚类算法。

3. 常用聚类算法

3.1 K-Means聚类算法

K-Means聚类，属于覆盖型数值划分聚类算法，它所得到的聚类结果，往往每个样本点都唯一属于一个类，且聚类变量通常为数值型变量，并采用划分原理进行聚类。聚类王湾涉及两个问题：（1）如何衡量样本之间的“亲疏程度”；（2）如何进行聚类。衡量样本亲疏程度一般有两个角度，其一是相似程度，其二是差异程度。衡量相似程度一般可用简单相关系数或等级相关系数，差异程度一般通过某种距离来测度。K-Means聚类算法采用距离角度来测量样本之间的亲疏程度。