聚类分析的典型应用场景
- 目标用户的群体分类
- 不同产品的价值组合
- 探测、发现孤立点、异常值
聚类分析应用注意事项
1.噪声和异常值的处理
- 直接删除那些比其他任何数据点都要远离聚类中心点的异常值
- 随机抽样
2.数据标准化
参与聚类的变量绝大多数都是区间型变量,不同区间型变量之间的数量单位不同,如果不加处理直接进行聚类,很容易造成聚类结果的失真。
数据标准化不仅可以为聚类计算中的各个属性赋予相同的权重,还可以有效化解不同属性因度量单位不统一所带来的潜在的数量等级的差异
标准差标准化,经过这种方法处理后的数据符合标准正态分布,即均值为0,标准差为1。(μ为所有样本数据的均值,σ为所有样本数据的标准差)
3.聚类变量的少而精
- 紧紧围绕具体分析目的和业务需求挑选聚类变量
- 通过相关性检测,可防止相关性高的变量同时进入聚类计算
- 衍生变量
- 主成分分析,作为一种常用的降维方法,可以在聚类之前进行数据的清理,精简变量的数量
- 聚类的核心指标与非聚类的业务指标相辅相成
- 数据的探索和清理工具
- 个性化推荐的应用
优势
- 聚类技术已经比较成熟,算法也比较可靠
- 聚类技术不仅本身是一种模型技术,可以直接响应业务需求,提出细分的具体方案来指导实践
- 聚类的结果比较容易用商业和业务的逻辑来理解和解释
- K-Means算法具有简洁、高效的特点
- K-Means算法是一个不依赖顺序的算法
缺点
- 数据分析师需要事先指定聚类的数目k
- 算法对数据噪声和异常值比较敏感
1.业务专家的评估
2.聚类技术上的评价指标
RMSSTD:群体中所有变量的综合标准差,RMSSTD越小表明群体内(簇内)个体对象的相似程度越高,聚类效果越好。
R-Square:聚类后群体间差异的大小,也就是聚类结果可以在多大比例上解释原数据的方差,R-Square越大表明群体间(簇间)的相异性越高,聚类效果就越好。
SPR:该指标适用于层次方法中的凝聚层次聚类算法,它表示当原来两个群体合并成新群体的时候,其所损失的群内相似性的比例。一般来说,SPR越小,表明合并成新的群体时,损失的群内相似性比例越小,新群体内的相似性越高,聚类效果就越好。
Distance Between Clusters:该指标适用于层次方法中的凝聚层次聚类算法,它表示在要合并两个细分群体(簇)时,分别计算两个群体的中心,以求得两个群体的距离。一般来说,距离越小说明两个群体越适合合并成一个新群体。