I . 聚类数据类型



聚类数据类型 :


① 区间标度变量 : 由 数值 和 单位组成 , 如 , 168 c m cm cm , 30 o C ^{o}C oC , 等值 ;

② 二元变量 :

③ 标称型变量 :

④ 序数型变量 :

⑤ 比例标度型变量 :

⑥ 混合型变量 :



II . 区间标度型变量



1 . 区间标度型变量 :


① 举例 : 重量 , 高度 , 长度 , 距离 , 经纬度 , 温度 , 气压 等由 数值 和 刻度单位 组成的变量 ;

② 度量单位影响 : 区间标度型变量 采用的 度量单位 , 直接影响聚类的分组结果 , 如身高使用 米 , 厘米 , 毫米 , 作为单位 , 其数值的数量级都不同 ;

③ 数据标准化 : 为了避免度量单位对聚类分析结果的影响 , 将数据进行标准化操作 , 将 数值 + 单位 组成的标度型变量 , 规范化为单纯由 数值 表示的值 ;



III . 区间标度型变量 标准化



1 . 数据标准化 : 对于 区间标度型变量 f f f , 消除其单位对聚类分析结果的影响 , 需要对齐进行标准化 ;


2 . 数据标准化过程 :


① 计算所有样本 f f f 属性的平均值 ;

② 计算平均绝对偏差值 ;

③ 计算标准化度量值 ;



IV . 区间标度型变量 标准化 ( 1 ) 计算所有数据的平均值



计算所有数据的平均值 : 假设数据集有 n n n 个样本 , 将样本 x x x f f f 属性值变量相加除以 n n n 取平均值 ;


m f = 1 n ( x 1 f + x 2 f + ⋯ + x n f ) m_f = \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} ) mf=n1(x1f+x2f++xnf)


n n n 表示 数据集样本的个数 ;

m f m_f mf 表示 n n n 个样的 f f f 属性的平均值 ;

x i x_i xi 表示第 i i i 个样本 ;

x n f x_{nf} xnf 表示第 n n n 个样本的 f f f 属性的值 , x 1 f x_{1f} x1f 表示第 1 1 1 个样本的 f f f 属性 , x 2 f x_{2f} x2f 表示第 2 2 2 个样本的 f f f 属性 ;



V . 区间标度型变量 标准化 ( 2 ) 计算平均绝对偏差



1 . 计算平均绝对偏差 : 每个样本的 f f f 属性减去 所有样本的 f f f 属性平均值 , 然后这个差取绝对值 , n n n 个样本的 f f f 属性 与平均值的差绝对值 相加 , 然后再 取其平均值 , 平均绝对偏差 ;


① 样本偏差 : 计算单个样本的 f f f 属性 与 所有样本的 f f f 平均值的差 , 该值可能是正数 , 可能是负数 , 也可能是 0 ;

② 样本绝对偏差 : 将上面计算的 符号 ( 正负号 ) 位置的样本偏差取绝对值 ;

③ 平均绝对偏差 : n n n 个样本的绝对偏差相加 , 处于 n n n 取平均值 , 即可得到平均绝对偏差 ;


2 . 平均绝对偏差公式如下 :


S f = 1 n ( ∣ x 1 f − m f ∣ + ∣ x 2 f − m f ∣ + ⋯ + ∣ x n f − m f ∣ ) S_f = \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | ) Sf=n1(x1fmf+x2fmf++xnfmf)


S f S_f Sf 表示 平均绝对偏差 ;

∣ x 1 f − m f ∣ | x_1f - m_f | x1fmf 表示第 1 1 1 个样本的 f f f 属性值 , 减去平均值后的绝对值 ;



VI . 区间标度型变量 标准化 ( 3 ) 计算标准化度量值



1 . 计算标准化度量值 : 进行 Z-Score 变换 , 这是数据标准化处理的常用方法 ;


2 . Z-Score 变换公式如下 : 根据每个样本的 f f f 属性值 , 样本的 f f f 属性平均值 , 平均绝对偏差 S f S_f Sf , 计算出每个样本的 f f f 属性标准化后的值 ;


Z i f = x i f − m f S f Z_{if} = \frac{x_{if} - m_f}{S_f} Zif=Sfxifmf


Z i f Z_{if} Zif 表示 数据样本 标准化 后的 属性值 , 该属性值只有数值 , 没有单位 ;

x i f x_{if} xif 表示第 i i i 个样本的 f f f 属性值 ;

m f m_f mf 表示 n n n 个样的 f f f 属性的平均值 ;

S f S_f Sf 表示 平均绝对偏差 ;


3 . 样本数据属性 标准化 本质 : 获取 数据集中的 单个样本属性 平均属性 偏差 , 相对于 平均绝对偏差 比值 ; 最终的本质是 偏差的比值 ; 根据偏差 确定 样本的相似度 ;



VII . 区间标度型变量 标准化 ( 4 ) 属性标准化示例



已知 : 3 3 3 个样本数据 , 代表 3 3 3 个人 , 身高属性分别是 145 c m cm cm , 180 c m cm cm , 165 c m cm cm , 将其标准化 ;


1 . 计算平均值 :

m f = 1 n ( x 1 f + x 2 f + ⋯ + x n f ) = 145 + 180 + 165 3 ≈ 163.333 \begin{array}{lcl} m_f &=& \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} )\\\\ &=& \dfrac{145 + 180 + 165}{3}\\\\ &\approx& 163.333 \end{array} mf==n1(x1f+x2f++xnf)3145+180+165163.333


平均值计算结果是 163.333 163.333 163.333 ;



2 . 计算平均绝对偏差 :

S f = 1 n ( ∣ x 1 f − m f ∣ + ∣ x 2 f − m f ∣ + ⋯ + ∣ x n f − m f ∣ ) = ∣ 145 − 163.333 ∣ + ∣ 180 − 163.333 ∣ + ∣ 165 − 163.333 ∣ 3 = 18.333 + 16.667 ‬ + 1.667 3 = 36.667 ‬ 3 ≈ 12.222 \begin{array}{lcl} S_f &=& \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | )\\\\ &=&\dfrac{|145 - 163.333| + |180 - 163.333| + |165 - 163.333| }{3}\\\\ &=&\dfrac{18.333 + 16.667‬ + 1.667 }{3}\\\\ &=&\dfrac{36.667‬ }{3}\\\\ &\approx& 12.222 \end{array} Sf====n1(x1fmf+x2fmf++xnfmf)3145163.333+180163.333+165163.333318.333+16.667+1.667336.66712.222


平均绝对偏差值 计算结果是 12.222 12.222 12.222 ;



3 . Z-Score 标准化 :


① 样本 1 1 1 身高 145 c m cm cm 标准化 : 标准化后的值为 − 1.5 -1.5 1.5 , 没有单位只有一个数值 ;

Z i f = x i f − m f S f = 145 − 163.333 12.222 = − 18.333 ‬ 12.222 = − 1.5 \begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{145 - 163.333}{12.222}\\\\ &=&\dfrac{-18.333‬}{12.222}\\\\ &=& -1.5 \end{array} Zif====Sfxifmf12.222145163.33312.22218.3331.5


② 样本 2 2 2 身高 180 c m cm cm 标准化 : 标准化后的值为 1.364 1.364 1.364 , 没有单位只有一个数值 ;

Z i f = x i f − m f S f = 180 − 163.333 12.222 = 16.667 ‬ 12.222 ≈ 1.364 \begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{180 - 163.333}{12.222}\\\\ &=&\dfrac{16.667‬}{12.222}\\\\ &\approx& 1.364 \end{array} Zif===Sfxifmf12.222180163.33312.22216.6671.364


③ 样本 3 3 3 身高 165 c m cm cm 标准化 : 标准化后的值为 0.136 0.136 0.136 , 没有单位只有一个数值 ;

Z i f = x i f − m f S f = 165 − 163.333 12.222 = 1.667 ‬ 12.222 ≈ 0.136 \begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{165 - 163.333}{12.222}\\\\ &=&\dfrac{1.667‬}{12.222}\\\\ &\approx& 0.136 \end{array} Zif===Sfxifmf12.222165163.33312.2221.6670.136



4 . 标准化结果 : 3 3 3 个样本数据 , 代表 3 3 3 个人 , 身高属性分别是 145 c m cm cm , 180 c m cm cm , 165 c m cm cm , 将其标准化后的值分别是 : − 1.5 , 1.364 , 0.136 -1.5 , 1.364 , 0.136 1.5,1.364,0.136



VIII . 相似度计算 ( 1 ) 明科斯基距离



1 . 对象相似度 ( 相异度 ) 计算 : 根据 两个 样本对象 之间的 距离 计算 , 通常使用 明科斯基 距离 公式进行计算 ;


2 . 明科斯基 距离 计算公式 :


d ( i , j ) = ∣ x i 1 − x j 1 ∣ q + ∣ x i 2 − x j 2 ∣ q + ⋯ + ∣ x i p − x j p ∣ q q d(i, j) = \sqrt [q] { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q } d(i,j)=qxi1xj1q+xi2xj2q++xipxjpq


d ( i , j ) d(i, j) d(i,j) 表示两个样本之间的距离 , 明科斯基 距离 ;

q q q 是一个系数 , 取值 { 1 , 2 , ⋯   } \{1 , 2 , \cdots\} {1,2,} ; 该取值很重要 , 不同取值衍生出不同的公式 ;

p p p 表示属性的个数 , 每个样本有 p p p 个属性 ;

i i i j j j 表示两个 样本的索引值 , 取值范围是 { 1 , 2 , ⋯   , q } \{1 , 2, \cdots , q\} {1,2,,q} ;

x i p − x j p x_{ip} - x_{jp} xipxjp 表示两个样本 第 p p p 个属性值 的差值 , x i 1 − x j 1 x_{i1} - x_{j1} xi1xj1 表示两个样本 第 1 1 1 个属性值 的差值 , x i 2 − x j 2 x_{i2} - x_{j2} xi2xj2 表示两个样本 第 2 2 2 个属性值 的差值 ;

∣ x i p − x j p ∣ |x_{ip} - x_{jp}| xipxjp 表示两个样本 第 p p p 个属性值 的差值 的绝对值 , ∣ x i 1 − x j 1 ∣ |x_{i1} - x_{j1}| xi1xj1 表示两个样本 第 1 1 1 个属性值 的差值 的绝对值 , ∣ x i 2 − x j 2 ∣ |x_{i2} - x_{j2}| xi2xj2 表示两个样本 第 2 2 2 个属性值 的差值 的绝对值 ;

最外层计算 ( q q q 次方根 ) : 最终计算需要求 ( ∣ x i 1 − x j 1 ∣ q + ∣ x i 2 − x j 2 ∣ q + ⋯ + ∣ x i p − x j p ∣ q ) ( { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q } ) (xi1xj1q+xi2xj2q++xipxjpq) q q q 次方根 ;




IX . 相似度计算 ( 2 ) 曼哈顿距离



1 . 曼哈顿距离 : 明科斯基距离计算很复杂 , 尤其是 q q q 取值很大时 , 因此该公式并不常用 , 通常情况下会将 q q q 取值为 1 1 1 , 或 2 2 2 , 当 q = 1 q = 1 q=1 时 , 该距离又称为 曼哈顿距离 ;


2 . 曼哈顿距离 公式如下 :


d ( i , j ) = ∣ x i 1 − x j 1 ∣ + ∣ x i 2 − x j 2 ∣ + ⋯ + ∣ x i p − x j p ∣ d(i, j) = | x_{i1} - x_{j1} | + | x_{i2} - x_{j2} | + \cdots + | x_{ip} - x_{jp} | d(i,j)=xi1xj1+xi2xj2++xipxjp


d ( i , j ) d(i, j) d(i,j) 表示两个样本之间的距离 , 曼哈顿距离 ;

p p p 表示属性的个数 , 每个样本有 p p p 个属性 ;

i i i j j j 表示两个 样本的索引值 , 取值范围是 { 1 , 2 , ⋯   , q } \{1 , 2, \cdots , q\} {1,2,,q} ;

x i p − x j p x_{ip} - x_{jp} xipxjp 表示两个样本 第 p p p 个属性值 的差值 , x i 1 − x j 1 x_{i1} - x_{j1} xi1xj1 表示两个样本 第 1 1 1 个属性值 的差值 , x i 2 − x j 2 x_{i2} - x_{j2} xi2xj2 表示两个样本 第 2 2 2 个属性值 的差值 ;


3 . 曼哈顿距离 与 明科斯基距离 :


① 去掉了外层 q q q 次方跟计算 : q = 1 q = 1 q=1 时 , 外层开 1 1 1 次方根 , 直接将 q q q 次方根计算的根号去掉即可 ;

② 去掉了样本差的指数计算 : 计算 ∣ x i 1 − x j 1 ∣ | x_{i1} - x_{j1} | xi1xj1 值的 1 1 1 次方 , 也可以取消 q q q 次方的指数计算 ;


4 . 曼哈顿距离图示 : 曼哈顿的街道都是横平竖直的 , 从 A A A 点到 B B B 点 , 一般就是其 x x x 轴坐标差 加上其 y y y 轴坐标差 , 即 x + y x + y x+y ;

【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 -> 相似度矩阵 ( 聚类数据类型 | 区间标度型变量及标准化 | 相似度计算 | 明科斯基距离 | 曼哈顿距离 | 欧几里得距离 )_相似度计算



X . 相似度计算 ( 3 ) 欧几里得距离



1 . 欧几里得距离 : 明科斯基距离计算很复杂 , 尤其是 q q q 取值很大时 , 因此该公式并不常用 , 通常情况下会将 q q q 取值为 1 1 1 , 或 2 2 2 , 当 q = 2 q = 2 q=2 时 , 该距离又称为 欧几里得距离 ;


2 . 欧几里得 距离 公式如下 :


d ( i , j ) = ∣ x i 1 − x j 1 ∣ 2 + ∣ x i 2 − x j 2 ∣ 2 + ⋯ + ∣ x i p − x j p ∣ 2 d(i, j) = \sqrt { | x_{i1} - x_{j1} | ^2 + | x_{i2} - x_{j2} | ^2 + \cdots + | x_{ip} - x_{jp} | ^2 } d(i,j)=xi1xj12+xi2xj22++xipxjp2


d ( i , j ) d(i, j) d(i,j) 表示两个样本之间的距离 , 明科斯基 距离 ;

p p p 表示属性的个数 , 每个样本有 p p p 个属性 ;

i i i j j j 表示两个 样本的索引值 , 取值范围是 { 1 , 2 , ⋯   , q } \{1 , 2, \cdots , q\} {1,2,,q} ;

x i p − x j p x_{ip} - x_{jp} xipxjp 表示两个样本 第 p p p 个属性值 的差值 , x i 1 − x j 1 x_{i1} - x_{j1} xi1xj1 表示两个样本 第 1 1 1 个属性值 的差值 , x i 2 − x j 2 x_{i2} - x_{j2} xi2xj2 表示两个样本 第 2 2 2 个属性值 的差值 ;


3 . 欧几里得距离图示 : A A A 点到 B B B 点的实际直线距离 , 即 z z z 距离 ;

【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 -> 相似度矩阵 ( 聚类数据类型 | 区间标度型变量及标准化 | 相似度计算 | 明科斯基距离 | 曼哈顿距离 | 欧几里得距离 )_曼哈顿距离_02

欧氏空间 : 可以计算欧几里得距离的空间 , 叫做欧氏空间 ;


4 . 欧几里得 距离 属性 :


① 样本之间的距离非负 : d ( i , j ) ≥ 0 d(i, j) \geq 0 d(i,j)0 , 欧几里得 距离是先 求平方和 , 再开根号 , 这个值一定是一个大于等于 0 0 0 的数值 ;

② 样本与其本身的距离为 0 0 0 : d ( i , i ) = 0 d(i, i) = 0 d(i,i)=0 , 一个样本与其本身的 相似度值 肯定为 0 0 0 , 因为其属性值完全相同 ;

③ 对称性 : d ( i , j ) = d ( j , i ) d(i , j) = d(j , i) d(i,j)=d(j,i) , 样本 i i i 与 样本 j j j 的相似度 , 肯定等于 样本 j j j 与 样本 i i i 的相似度 ;

④ 三角不等式 : 两边之和 , 一定大于第三边 , d ( i , j ) ≤ d ( i , l ) + d ( l , j ) d(i , j) \leq d(i , l) + d(l , j) d(i,j)d(i,l)+d(l,j) , 从 第 i i i 个样本到第 j j j 个样本的 直接距离 , 小于等于 其途径任何样本 l l l 生成的的两个距离之和 d ( i , l ) + d ( l , j ) d(i , l) + d(l , j) d(i,l)+d(l,j), 这两个距离分别是 样本 i i i 到 样本 l l l 的距离 d ( i , l ) d(i , l) d(i,l) , 和样本 l l l 到 样本 j j j 的距离 d ( l , j ) d(l , j) d(l,j) ;


5 . 属性权重 : 计算时 , 有些属性可能很重要 , 有些属性不重要 , 可以为样本的不同属性 , 赋予不同的权重 , w i w_i wi ;


公式变为 :


d ( i , j ) = w 1 ∣ x i 1 − x j 1 ∣ 2 + w 2 ∣ x i 2 − x j 2 ∣ 2 + ⋯ + w p ∣ x i p − x j p ∣ 2 d(i, j) = \sqrt { w_1 | x_{i1} - x_{j1} | ^2 + w_2 | x_{i2} - x_{j2} | ^2 + \cdots + w_p | x_{ip} - x_{jp} | ^2 } d(i,j)=w1xi1xj12+w2xi2xj22++wpxipxjp2


其中 w 1 w_1 w1 表示属性 1 1 1 的权重 , w 2 w_2 w2 表示属性 2 2 2 的权重 , w p w_p wp 表示属性 p p p 的权重 ;