一、误差平方和SSE(sum of square due to error)

聚集偏差_CH系数法聚类将数据化分为k类,用聚集偏差_聚集偏差_02表示,每一类的中心点分别为聚集偏差_聚集偏差_03,则聚集偏差_轮廓系数法_04对于同一个数据而言,SSE值越小说明聚类效果越好。这个评价指标只需要计算每各类中心点,之后按不同类别计算每个样本与对应类别中心点的平方差即可,时间复杂度为O(n)。

二、轮廓系数法(Siluouette Coefficient)

聚集偏差_CH系数法给出了聚类的凝聚度和分离度。对于任一样本聚集偏差_轮廓系数法_06而言,所谓凝聚度,就是指样本聚集偏差_聚集偏差_07到同一类其他点的距离的平均值。假设这个簇为C,里面有n个样本,我们定义为聚集偏差_轮廓系数法_08分离度是指样本聚集偏差_聚集偏差_07到其他簇的平均距离的最小值。假设其他簇为聚集偏差_CH系数法_10,簇大小分别为聚集偏差_CH系数法_11,则分离度聚集偏差_聚集偏差_12
聚集偏差_CH系数法可见,任意一个样本如果与当前类距离尽可能近,即a尽可能小,与其他类距离尽可能远,即b尽可能大,这样这个样本便被正确划分。我们用轮廓系数统一分离度和凝聚度,对于一个样本聚集偏差_轮廓系数法_06而言,轮廓系数为聚集偏差_CH系数法_15聚集偏差_CH系数法对于一个样本而言,轮廓系数聚集偏差_聚集偏差_17越接近于1,表明越是分类正确,接近于0,说明处于两个类的边界处,小于0,说明很可能被错误划分到其他类中了。评价当前聚类效果的好坏可以直接用每个样本的轮廓系数聚集偏差_聚集偏差_17的平均值表示,越大表示聚类效果越好。越多表示簇内距离越近,簇间距离越远。

三、CH系数法(Calinski-Harabasz Index)

聚集偏差_CH系数法类别内部距离平方和越小越好,类别之间的距离平方和越大越好,这样CH值就是越高,CH值越高表示聚类效果越好。聚集偏差_CH系数法_20其中,m为训练样本数,k为类别数。聚集偏差_CH系数法_21,SSB表示类别之间距离的平方和,一共k个类别,每个类别均值为聚集偏差_CH系数法_22,没个类中样本个数为聚集偏差_轮廓系数法_23,所有样本平均值为聚集偏差_轮廓系数法_24,这样便可算出SSB。聚集偏差_聚集偏差_25,即为每个样本与其所在类别均值的距离的平方和。可见SSW越小,SSB越大,则聚类效果越好。聚集偏差_CH系数法_26表示聚类簇数越多,CH值将会降低,表明CH值目的是用尽量少的类别尽量多的样本,同时获得很好的聚类效果