CH系数指的是Calinski-Harabasz指数,这是一种用于评估聚类结果质量的统计量,特别是在确定最优聚类数目时非常有用。

CH系数基于簇内离散度簇间离散度的比值,较高的CH值表明聚类结构更加明显,簇间差异大而簇内差异小,因此好的聚类结果应该有较高的CH系数。

CH系数的计算公式如下:

什么是CH系数?_聚类

这里每一个组成部分都有其特定的意义:

  • 什么是CH系数?_样本集_02簇间离散度即各个簇质心与总质心之间的离散程度的加权和。它的值越大,表示簇之间的差异越大。
  • 什么是CH系数?_人工智能_03簇内离散度即每个簇内所有点到该簇质心的离散程度的加权和。它的值越小,表示簇内部的凝聚性越好。
  • 什么是CH系数?_聚类_04:聚类的簇数。
  • 什么是CH系数?_样本集_05:样本总数。

具体来说,公式中的每一项解释如下:

  • 什么是CH系数?_样本集_06簇间离散度的标准化,这里的 什么是CH系数?_机器学习_07 是自由度,因为 什么是CH系数?_聚类_04 个簇就有 什么是CH系数?_机器学习_07
  • 什么是CH系数?_聚类_10簇内离散度的标准化,这里的 什么是CH系数?_聚类_11 同样是自由度,表示 什么是CH系数?_样本集_05 个样本减去已经聚类成簇的 什么是CH系数?_聚类_04

具体计算方法如下:

  1. 对于 什么是CH系数?_权重_14,先计算每个簇的质心,然后计算每个簇质心到总体质心的平方距离的加权和,权重是每个簇内的样本数量。

什么是CH系数?_机器学习_15

其中,

  • 什么是CH系数?_样本集_16 是第 什么是CH系数?_聚类_17 簇的样本数量
  • 什么是CH系数?_权重_18 是第 什么是CH系数?_聚类_17 簇的质心
  • 什么是CH系数?_权重_20 是所有样本的总质心。
  1. 对于 什么是CH系数?_人工智能_21,计算每个簇内所有样本到该簇质心的平方距离的加权和

什么是CH系数?_样本集_22

其中,

  • 什么是CH系数?_聚类_23 是属于第 什么是CH系数?_聚类_17 簇的某个样本
  • 什么是CH系数?_机器学习_25 是第 什么是CH系数?_聚类_17 簇的所有样本集合。
  • 什么是CH系数?_权重_18 是第 什么是CH系数?_聚类_17 簇的质心

最后,将 什么是CH系数?_样本集_29什么是CH系数?_聚类_30

在实际应用中,通常会计算不同 什么是CH系数?_样本集_31 值下的CH系数,选择使CH系数最大什么是CH系数?_样本集_31 值作为最优的聚类数目

这是因为最大的CH系数表明簇间差异最大而簇内差异最小,从而说明聚类效果最好。