一、误差平方和SSE(sum of square due to error)
聚类将数据化分为k类,用表示,每一类的中心点分别为,则对于同一个数据而言,SSE值越小说明聚类效果越好。这个评价指标只需要计算每各类中心点,之后按不同类别计算每个样本与对应类别中心点的平方差即可,时间复杂度为O(n)。
二、轮廓系数法(Siluouette Coefficient)
给出了聚类的凝聚度和分离度。对于任一样本而言,所谓凝聚度,就是指样本到同一类其他点的距离的平均值。假设这个簇为C,里面有n个样本,我们定义为。分离度是指样本到其他簇的平均距离的最小值。假设其他簇为,簇大小分别为,则分离度。
可见,任意一个样本如果与当前类距离尽可能近,即a尽可能小,与其他类距离尽可能远,即b尽可能大,这样这个样本便被正确划分。我们用轮廓系数统一分离度和凝聚度,对于一个样本而言,轮廓系数为对于一个样本而言,轮廓系数越接近于1,表明越是分类正确,接近于0,说明处于两个类的边界处,小于0,说明很可能被错误划分到其他类中了。评价当前聚类效果的好坏可以直接用每个样本的轮廓系数的平均值表示,越大表示聚类效果越好。越多表示簇内距离越近,簇间距离越远。
三、CH系数法(Calinski-Harabasz Index)
类别内部距离平方和越小越好,类别之间的距离平方和越大越好,这样CH值就是越高,CH值越高表示聚类效果越好。其中,m为训练样本数,k为类别数。,SSB表示类别之间距离的平方和,一共k个类别,每个类别均值为,没个类中样本个数为,所有样本平均值为,这样便可算出SSB。,即为每个样本与其所在类别均值的距离的平方和。可见SSW越小,SSB越大,则聚类效果越好。表示聚类簇数越多,CH值将会降低,表明CH值目的是用尽量少的类别尽量多的样本,同时获得很好的聚类效果。