文章目录
I . 聚类数据类型
聚类数据类型 :
① 区间标度变量 : 由 数值 和 单位组成 , 如 , 168 c m cm cm , 30 o C ^{o}C oC , 等值 ;
② 二元变量 :
③ 标称型变量 :
④ 序数型变量 :
⑤ 比例标度型变量 :
⑥ 混合型变量 :
II . 区间标度型变量
1 . 区间标度型变量 :
① 举例 : 重量 , 高度 , 长度 , 距离 , 经纬度 , 温度 , 气压 等由 数值 和 刻度单位 组成的变量 ;
② 度量单位影响 : 区间标度型变量 采用的 度量单位 , 直接影响聚类的分组结果 , 如身高使用 米 , 厘米 , 毫米 , 作为单位 , 其数值的数量级都不同 ;
③ 数据标准化 : 为了避免度量单位对聚类分析结果的影响 , 将数据进行标准化操作 , 将 数值 + 单位 组成的标度型变量 , 规范化为单纯由 数值 表示的值 ;
III . 区间标度型变量 标准化
1 . 数据标准化 : 对于 区间标度型变量 f f f , 消除其单位对聚类分析结果的影响 , 需要对齐进行标准化 ;
2 . 数据标准化过程 :
① 计算所有样本 f f f 属性的平均值 ;
② 计算平均绝对偏差值 ;
③ 计算标准化度量值 ;
IV . 区间标度型变量 标准化 ( 1 ) 计算所有数据的平均值
计算所有数据的平均值 : 假设数据集有 n n n 个样本 , 将样本 x x x 的 f f f 属性值变量相加除以 n n n 取平均值 ;
m f = 1 n ( x 1 f + x 2 f + ⋯ + x n f ) m_f = \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} ) mf=n1(x1f+x2f+⋯+xnf)
n n n 表示 数据集样本的个数 ;
m f m_f mf 表示 n n n 个样的 f f f 属性的平均值 ;
x i x_i xi 表示第 i i i 个样本 ;
x n f x_{nf} xnf 表示第 n n n 个样本的 f f f 属性的值 , x 1 f x_{1f} x1f 表示第 1 1 1 个样本的 f f f 属性 , x 2 f x_{2f} x2f 表示第 2 2 2 个样本的 f f f 属性 ;
V . 区间标度型变量 标准化 ( 2 ) 计算平均绝对偏差
1 . 计算平均绝对偏差 : 每个样本的 f f f 属性减去 所有样本的 f f f 属性平均值 , 然后这个差取绝对值 , 将 n n n 个样本的 f f f 属性 与平均值的差 的 绝对值 相加 , 然后再 取其平均值 , 即 平均绝对偏差 ;
① 样本偏差 : 计算单个样本的 f f f 属性 与 所有样本的 f f f 平均值的差 , 该值可能是正数 , 可能是负数 , 也可能是 0 ;
② 样本绝对偏差 : 将上面计算的 符号 ( 正负号 ) 位置的样本偏差取绝对值 ;
③ 平均绝对偏差 : 将 n n n 个样本的绝对偏差相加 , 处于 n n n 取平均值 , 即可得到平均绝对偏差 ;
2 . 平均绝对偏差公式如下 :
S f = 1 n ( ∣ x 1 f − m f ∣ + ∣ x 2 f − m f ∣ + ⋯ + ∣ x n f − m f ∣ ) S_f = \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | ) Sf=n1(∣x1f−mf∣+∣x2f−mf∣+⋯+∣xnf−mf∣)
S f S_f Sf 表示 平均绝对偏差 ;
∣ x 1 f − m f ∣ | x_1f - m_f | ∣x1f−mf∣ 表示第 1 1 1 个样本的 f f f 属性值 , 减去平均值后的绝对值 ;
VI . 区间标度型变量 标准化 ( 3 ) 计算标准化度量值
1 . 计算标准化度量值 : 进行 Z-Score 变换 , 这是数据标准化处理的常用方法 ;
2 . Z-Score 变换公式如下 : 根据每个样本的 f f f 属性值 , 样本的 f f f 属性平均值 , 平均绝对偏差 S f S_f Sf , 计算出每个样本的 f f f 属性标准化后的值 ;
Z i f = x i f − m f S f Z_{if} = \frac{x_{if} - m_f}{S_f} Zif=Sfxif−mf
Z i f Z_{if} Zif 表示 数据样本 标准化 后的 属性值 , 该属性值只有数值 , 没有单位 ;
x i f x_{if} xif 表示第 i i i 个样本的 f f f 属性值 ;
m f m_f mf 表示 n n n 个样的 f f f 属性的平均值 ;
S f S_f Sf 表示 平均绝对偏差 ;
3 . 样本数据属性 标准化 本质 : 获取 数据集中的 单个样本属性 与 平均属性 的 偏差 , 相对于 平均绝对偏差 的 比值 ; 最终的本质是 偏差的比值 ; 根据偏差 确定 样本的相似度 ;
VII . 区间标度型变量 标准化 ( 4 ) 属性标准化示例
已知 : 3 3 3 个样本数据 , 代表 3 3 3 个人 , 身高属性分别是 145 c m cm cm , 180 c m cm cm , 165 c m cm cm , 将其标准化 ;
1 . 计算平均值 :
m f = 1 n ( x 1 f + x 2 f + ⋯ + x n f ) = 145 + 180 + 165 3 ≈ 163.333 \begin{array}{lcl} m_f &=& \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} )\\\\ &=& \dfrac{145 + 180 + 165}{3}\\\\ &\approx& 163.333 \end{array} mf==≈n1(x1f+x2f+⋯+xnf)3145+180+165163.333
平均值计算结果是 163.333 163.333 163.333 ;
2 . 计算平均绝对偏差 :
S f = 1 n ( ∣ x 1 f − m f ∣ + ∣ x 2 f − m f ∣ + ⋯ + ∣ x n f − m f ∣ ) = ∣ 145 − 163.333 ∣ + ∣ 180 − 163.333 ∣ + ∣ 165 − 163.333 ∣ 3 = 18.333 + 16.667 + 1.667 3 = 36.667 3 ≈ 12.222 \begin{array}{lcl} S_f &=& \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | )\\\\ &=&\dfrac{|145 - 163.333| + |180 - 163.333| + |165 - 163.333| }{3}\\\\ &=&\dfrac{18.333 + 16.667 + 1.667 }{3}\\\\ &=&\dfrac{36.667 }{3}\\\\ &\approx& 12.222 \end{array} Sf====≈n1(∣x1f−mf∣+∣x2f−mf∣+⋯+∣xnf−mf∣)3∣145−163.333∣+∣180−163.333∣+∣165−163.333∣318.333+16.667+1.667336.66712.222
平均绝对偏差值 计算结果是 12.222 12.222 12.222 ;
3 . Z-Score 标准化 :
① 样本 1 1 1 身高 145 c m cm cm 标准化 : 标准化后的值为 − 1.5 -1.5 −1.5 , 没有单位只有一个数值 ;
Z i f = x i f − m f S f = 145 − 163.333 12.222 = − 18.333 12.222 = − 1.5 \begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{145 - 163.333}{12.222}\\\\ &=&\dfrac{-18.333}{12.222}\\\\ &=& -1.5 \end{array} Zif====Sfxif−mf12.222145−163.33312.222−18.333−1.5
② 样本 2 2 2 身高 180 c m cm cm 标准化 : 标准化后的值为 1.364 1.364 1.364 , 没有单位只有一个数值 ;
Z i f = x i f − m f S f = 180 − 163.333 12.222 = 16.667 12.222 ≈ 1.364 \begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{180 - 163.333}{12.222}\\\\ &=&\dfrac{16.667}{12.222}\\\\ &\approx& 1.364 \end{array} Zif===≈Sfxif−mf12.222180−163.33312.22216.6671.364
③ 样本 3 3 3 身高 165 c m cm cm 标准化 : 标准化后的值为 0.136 0.136 0.136 , 没有单位只有一个数值 ;
Z i f = x i f − m f S f = 165 − 163.333 12.222 = 1.667 12.222 ≈ 0.136 \begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{165 - 163.333}{12.222}\\\\ &=&\dfrac{1.667}{12.222}\\\\ &\approx& 0.136 \end{array} Zif===≈Sfxif−mf12.222165−163.33312.2221.6670.136
4 . 标准化结果 : 3 3 3 个样本数据 , 代表 3 3 3 个人 , 身高属性分别是 145 c m cm cm , 180 c m cm cm , 165 c m cm cm , 将其标准化后的值分别是 : − 1.5 , 1.364 , 0.136 -1.5 , 1.364 , 0.136 −1.5,1.364,0.136
VIII . 相似度计算 ( 1 ) 明科斯基距离
1 . 对象相似度 ( 相异度 ) 计算 : 根据 两个 样本对象 之间的 距离 计算 , 通常使用 明科斯基 距离 公式进行计算 ;
2 . 明科斯基 距离 计算公式 :
d ( i , j ) = ∣ x i 1 − x j 1 ∣ q + ∣ x i 2 − x j 2 ∣ q + ⋯ + ∣ x i p − x j p ∣ q q d(i, j) = \sqrt [q] { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q } d(i,j)=q∣xi1−xj1∣q+∣xi2−xj2∣q+⋯+∣xip−xjp∣q
d ( i , j ) d(i, j) d(i,j) 表示两个样本之间的距离 , 明科斯基 距离 ;
q q q 是一个系数 , 取值 { 1 , 2 , ⋯ } \{1 , 2 , \cdots\} {1,2,⋯} ; 该取值很重要 , 不同取值衍生出不同的公式 ;
p p p 表示属性的个数 , 每个样本有 p p p 个属性 ;
i i i 和 j j j 表示两个 样本的索引值 , 取值范围是 { 1 , 2 , ⋯ , q } \{1 , 2, \cdots , q\} {1,2,⋯,q} ;
x i p − x j p x_{ip} - x_{jp} xip−xjp 表示两个样本 第 p p p 个属性值 的差值 , x i 1 − x j 1 x_{i1} - x_{j1} xi1−xj1 表示两个样本 第 1 1 1 个属性值 的差值 , x i 2 − x j 2 x_{i2} - x_{j2} xi2−xj2 表示两个样本 第 2 2 2 个属性值 的差值 ;
∣ x i p − x j p ∣ |x_{ip} - x_{jp}| ∣xip−xjp∣ 表示两个样本 第 p p p 个属性值 的差值 的绝对值 , ∣ x i 1 − x j 1 ∣ |x_{i1} - x_{j1}| ∣xi1−xj1∣ 表示两个样本 第 1 1 1 个属性值 的差值 的绝对值 , ∣ x i 2 − x j 2 ∣ |x_{i2} - x_{j2}| ∣xi2−xj2∣ 表示两个样本 第 2 2 2 个属性值 的差值 的绝对值 ;
最外层计算 ( q q q 次方根 ) : 最终计算需要求 ( ∣ x i 1 − x j 1 ∣ q + ∣ x i 2 − x j 2 ∣ q + ⋯ + ∣ x i p − x j p ∣ q ) ( { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q } ) (∣xi1−xj1∣q+∣xi2−xj2∣q+⋯+∣xip−xjp∣q) 的 q q q 次方根 ;
IX . 相似度计算 ( 2 ) 曼哈顿距离
1 . 曼哈顿距离 : 明科斯基距离计算很复杂 , 尤其是 q q q 取值很大时 , 因此该公式并不常用 , 通常情况下会将 q q q 取值为 1 1 1 , 或 2 2 2 , 当 q = 1 q = 1 q=1 时 , 该距离又称为 曼哈顿距离 ;
2 . 曼哈顿距离 公式如下 :
d ( i , j ) = ∣ x i 1 − x j 1 ∣ + ∣ x i 2 − x j 2 ∣ + ⋯ + ∣ x i p − x j p ∣ d(i, j) = | x_{i1} - x_{j1} | + | x_{i2} - x_{j2} | + \cdots + | x_{ip} - x_{jp} | d(i,j)=∣xi1−xj1∣+∣xi2−xj2∣+⋯+∣xip−xjp∣
d ( i , j ) d(i, j) d(i,j) 表示两个样本之间的距离 , 曼哈顿距离 ;
p p p 表示属性的个数 , 每个样本有 p p p 个属性 ;
i i i 和 j j j 表示两个 样本的索引值 , 取值范围是 { 1 , 2 , ⋯ , q } \{1 , 2, \cdots , q\} {1,2,⋯,q} ;
x i p − x j p x_{ip} - x_{jp} xip−xjp 表示两个样本 第 p p p 个属性值 的差值 , x i 1 − x j 1 x_{i1} - x_{j1} xi1−xj1 表示两个样本 第 1 1 1 个属性值 的差值 , x i 2 − x j 2 x_{i2} - x_{j2} xi2−xj2 表示两个样本 第 2 2 2 个属性值 的差值 ;
3 . 曼哈顿距离 与 明科斯基距离 :
① 去掉了外层 q q q 次方跟计算 : q = 1 q = 1 q=1 时 , 外层开 1 1 1 次方根 , 直接将 q q q 次方根计算的根号去掉即可 ;
② 去掉了样本差的指数计算 : 计算 ∣ x i 1 − x j 1 ∣ | x_{i1} - x_{j1} | ∣xi1−xj1∣ 值的 1 1 1 次方 , 也可以取消 q q q 次方的指数计算 ;
4 . 曼哈顿距离图示 : 曼哈顿的街道都是横平竖直的 , 从 A A A 点到 B B B 点 , 一般就是其 x x x 轴坐标差 加上其 y y y 轴坐标差 , 即 x + y x + y x+y ;
X . 相似度计算 ( 3 ) 欧几里得距离
1 . 欧几里得距离 : 明科斯基距离计算很复杂 , 尤其是 q q q 取值很大时 , 因此该公式并不常用 , 通常情况下会将 q q q 取值为 1 1 1 , 或 2 2 2 , 当 q = 2 q = 2 q=2 时 , 该距离又称为 欧几里得距离 ;
2 . 欧几里得 距离 公式如下 :
d ( i , j ) = ∣ x i 1 − x j 1 ∣ 2 + ∣ x i 2 − x j 2 ∣ 2 + ⋯ + ∣ x i p − x j p ∣ 2 d(i, j) = \sqrt { | x_{i1} - x_{j1} | ^2 + | x_{i2} - x_{j2} | ^2 + \cdots + | x_{ip} - x_{jp} | ^2 } d(i,j)=∣xi1−xj1∣2+∣xi2−xj2∣2+⋯+∣xip−xjp∣2
d ( i , j ) d(i, j) d(i,j) 表示两个样本之间的距离 , 明科斯基 距离 ;
p p p 表示属性的个数 , 每个样本有 p p p 个属性 ;
i i i 和 j j j 表示两个 样本的索引值 , 取值范围是 { 1 , 2 , ⋯ , q } \{1 , 2, \cdots , q\} {1,2,⋯,q} ;
x i p − x j p x_{ip} - x_{jp} xip−xjp 表示两个样本 第 p p p 个属性值 的差值 , x i 1 − x j 1 x_{i1} - x_{j1} xi1−xj1 表示两个样本 第 1 1 1 个属性值 的差值 , x i 2 − x j 2 x_{i2} - x_{j2} xi2−xj2 表示两个样本 第 2 2 2 个属性值 的差值 ;
3 . 欧几里得距离图示 :从 A A A 点到 B B B 点的实际直线距离 , 即 z z z 距离 ;
欧氏空间 : 可以计算欧几里得距离的空间 , 叫做欧氏空间 ;
4 . 欧几里得 距离 属性 :
① 样本之间的距离非负 : d ( i , j ) ≥ 0 d(i, j) \geq 0 d(i,j)≥0 , 欧几里得 距离是先 求平方和 , 再开根号 , 这个值一定是一个大于等于 0 0 0 的数值 ;
② 样本与其本身的距离为 0 0 0 : d ( i , i ) = 0 d(i, i) = 0 d(i,i)=0 , 一个样本与其本身的 相似度值 肯定为 0 0 0 , 因为其属性值完全相同 ;
③ 对称性 : d ( i , j ) = d ( j , i ) d(i , j) = d(j , i) d(i,j)=d(j,i) , 样本 i i i 与 样本 j j j 的相似度 , 肯定等于 样本 j j j 与 样本 i i i 的相似度 ;
④ 三角不等式 : 两边之和 , 一定大于第三边 , d ( i , j ) ≤ d ( i , l ) + d ( l , j ) d(i , j) \leq d(i , l) + d(l , j) d(i,j)≤d(i,l)+d(l,j) , 从 第 i i i 个样本到第 j j j 个样本的 直接距离 , 小于等于 其途径任何样本 l l l 生成的的两个距离之和 d ( i , l ) + d ( l , j ) d(i , l) + d(l , j) d(i,l)+d(l,j), 这两个距离分别是 样本 i i i 到 样本 l l l 的距离 d ( i , l ) d(i , l) d(i,l) , 和样本 l l l 到 样本 j j j 的距离 d ( l , j ) d(l , j) d(l,j) ;
5 . 属性权重 : 计算时 , 有些属性可能很重要 , 有些属性不重要 , 可以为样本的不同属性 , 赋予不同的权重 , w i w_i wi ;
公式变为 :
d ( i , j ) = w 1 ∣ x i 1 − x j 1 ∣ 2 + w 2 ∣ x i 2 − x j 2 ∣ 2 + ⋯ + w p ∣ x i p − x j p ∣ 2 d(i, j) = \sqrt { w_1 | x_{i1} - x_{j1} | ^2 + w_2 | x_{i2} - x_{j2} | ^2 + \cdots + w_p | x_{ip} - x_{jp} | ^2 } d(i,j)=w1∣xi1−xj1∣2+w2∣xi2−xj2∣2+⋯+wp∣xip−xjp∣2
其中 w 1 w_1 w1 表示属性 1 1 1 的权重 , w 2 w_2 w2 表示属性 2 2 2 的权重 , w p w_p wp 表示属性 p p p 的权重 ;