1. 聚类分析的提出


物以类聚,人以群分!志同而道合,即具有相同特点的物体(或人类)往往更容易走近,从而形成自己的一个“圈子”。


在现代零售行业,顾客群细分是最为常见的一种业务需求,一般情况下,会从客户性别、年龄、职业、消费金额等一个变量进行分组,或者几个简单变量交叉分组。但这种传统的客户细分模式往往会体现以下弊端:


1)客户细分之前,需要人为指定分类变量,需要用几个变量、什么变量往往受人为因素影响较大。


2)人为制定的分类属性,往往体现了群体的局部特征,并不能描述群体的整体特征。


相比而言,聚类分析是解决传统客户细分的有效方法。它能够将数据样本,在没有先验知识的前提下,依据数据的整体属性,依照其内在的亲疏程度进行自动分组,能够使组内个体尽可能亲密,组间个体尽可能疏远。


此处所指,没有先验知识是无需提前设定分类属性;亲疏程度一般有两个评估标准,相似程度和差异程度。


2. 聚类算法分类


依照不同的分类标准,可以从不同角度对聚类算法进行划分:


(1)聚类结果角度


聚类算法可以分为覆盖聚类算法和非覆盖聚类算法。覆盖聚类算法指的是任何一个个体都会隶属于至少一个类,反之则为非覆盖聚类算法。


聚类算法还可以分为层次聚类和非层次聚类,层次聚类指的存在一个类属于另外一个类的子集,反之则成为非层次聚类。


聚类算法还可以分为确定聚类和模糊聚类。确定聚类即任意两个类的交集为空,任何一个个体只能属于一个类,否则称为模糊聚类。


(2)聚类变量角度


变量一般分为数值型变量和分类型变量。同样,依照聚类变量角度,聚类算法可以分为数值型聚类算法、分类型聚类算法和混合型聚类算法。


(3)聚类的原理角度


依照聚类的原理,聚类算法一般可以分为划分聚类(Partitional clusting)算法、层次聚类(Hierarchical clusting)算法、基于密度的聚类(Density-based clusting)算法以及网格聚类(Grid clusting)算法等。


目前较为流行的聚类算法有K-Means聚类算法、两步聚类算法、Kohonen网络聚类算法。


3. 常用聚类算法

3.1 K-Means聚类算法


K-Means聚类,属于覆盖型数值划分聚类算法,它所得到的聚类结果,往往每个样本点都唯一属于一个类,且聚类变量通常为数值型变量,并采用划分原理进行聚类。聚类王湾涉及两个问题:(1)如何衡量样本之间的“亲疏程度”;(2)如何进行聚类。衡量样本亲疏程度一般有两个角度,其一是相似程度,其二是差异程度。衡量相似程度一般可用简单相关系数或等级相关系数,差异程度一般通过某种距离来测度。K-Means聚类算法采用距离角度来测量样本之间的亲疏程度。


3.1.1 差异性度量方法


(1)数量型指标


K-Means一般采用欧式距离计算样本之间的距离,欧式距离公式如下:



除此之外,常用作计算数量型指标之间距离的方法有,


3.2 两步聚类算法

3.3 Kohonen网络聚类算法