文章目录

  • 一、系统(层次)聚类介绍
  • 1.分类准则
  • 2.算法的流程步骤
  • 2.样本与样本之间的距离计算公式
  • 4.类与类之间的距离
  • 5.聚类分析需要注意的问题
  • 二、系统聚类的SPSS实现
  • 三、用图形估计聚类个数
  • 1.原理
  • 2.绘制图形,辅助确定
  • 四、绘制聚类结果图


一、系统(层次)聚类介绍

系统聚类的合并算法通过计算两类数据点间的距离,对最为接近的两类数据点进行组合,并反复迭代这一过程,直到将所有数据点合成一类,并生成聚类谱系图。


1.分类准则

距离近的样本聚为一类

2.算法的流程步骤

  1. 计算n个样本两两之间的距离D
  2. 构建n个类,每个类只包含一个样本
  3. 合并距离最近的两个类为一个新类
  4. 计算新类与当前各类的距离
  5. 重复3、4步骤,直至类的个数变为1
  6. 画聚类图
  7. 决定分类个数和类

2.样本与样本之间的距离计算公式

欧氏距离矩阵python代码 spss计算欧式距离矩阵_欧氏距离矩阵python代码


绝对值距离公式适合于网状道路的距离;欧氏距离公式是Minkowski距离公式的一个特例;一般情况下,除非严格要求是网状道路,其他情况下使用欧氏距离公式即可。


4.类与类之间的距离

  1. 由一个样本组成的类是最基本的类;如果每一个类都是由一个样本组成,那么样本间的距离就是类间距离;
  2. 如果某一类包含不止一个样本,那么就要确定类间距离,类间距离是基于样本间距离定义的;
  3. 类间距离的方法有最短距离、最长距离法、重心法、组间平均连接法和组内平均连接法;
  4. 具体选择哪个定义方法取决于哪个方法对于求解的问题更有效、更具解释力。(使用哪个方法,你能解释清楚,就用哪个方法)

5.聚类分析需要注意的问题

  1. 对于一个实际问题要根据分类的目的来选取指标,指标选取的不同分类结果一般也不同;
  2. 样本间距离定义方式的不同,聚类结果一般也不同;
  3. 聚类方法的不同,聚类结果一般也不同(尤其是样本特别多的时候)。最好能通过各种方法找出其中的共性;
  4. 注意指标的量纲,量纲差别太大会导致聚类结果不合理;
  5. 聚类分析的结果可能不令人满意,数学的处理可能与实际出现差异,但是找到一个合理的解释是必要的。

二、系统聚类的SPSS实现

分析 — 分类 — 系统聚类 — 右移自变量和个案标注依据(目标变量,即因变量)-— 图,勾选谱系图 — 方法 — 选择聚类方法(即类与类距离方法) — 选择区间(即样本与样本之间距离方法)— 标准化,勾选z得分 — 保存,勾选无 — 确认


三、用图形估计聚类个数

1.原理

肘部法则:通过图形大致的估计出最优的聚类数量。

 

欧氏距离矩阵python代码 spss计算欧式距离矩阵_聚类_02


2.绘制图形,辅助确定

SPSS — 聚类分析 — 双击进入集中计划 — 复制系数 — Excel — 粘贴(匹配目标格式)— 插入 — 推荐的图表 — 散点图 — 结合图形,选择转折点,决定最优K值


四、绘制聚类结果图

注意:只有当指标个数为2或者3个时候,才能绘制聚类分析的结果图。
 
SPSS — 分析 — 分类 — 系统聚类 — 保存 — 勾选单个解,输入所需聚类数 — 图形 — 图表构造器 — 图库 — 散点图/点图 — 右移变量 — 设置颜色,就是选择原则 — 组/点 ID — 勾选点 ID标签 — 确定
 
双击输出的结果图表,可以进行编辑和美化