1. 文档聚类要求

  • 高维度:一个文档集包含成千上万个词条,每个词条构成文档向量中的一个维度
  • 可扩展性:真实数据集包含成百上千的文档,大多数算法只在小数据集上效果好
  • 高准确度:簇内高相似,簇间低相似
  • 有意义的簇标签
  • 无需先知的领域知识:对输入参数不敏感

2. 文档聚类方法

2.1 层次聚类方法

  •  不同的AHC变体(02、03)采用不同的相似度测度方案。HC方法一旦执行合并或分裂就不能调整,缺乏灵活性,降低了聚类精度。
  •  UPGMA被认为是层次聚类中准确性最高的方法(90)。由于UPGMA在簇间相似性计算上的复杂度高,导致其可扩展性差(03)。

2.2 划分聚类方法

  • Steinbach(00)指出BKM (02)在准确性和效率上好于基本的KM(99)和AHC(90)
  • 基本KM和BKM相对来说效率较高,可扩展性好,计算复杂度与文档数成线性比。
  • KM算法的缺点是要求输入参数K,不适于发现大小相关较大的簇,对噪声敏感。
  • K中心点算法试图解决噪声问题,但计算成本高,可扩展性差。

2.3 基于频项集的聚类方法

  • 使用频繁项集聚类事务数据产生了新的聚类标准:一个簇中的事务应共享多的频繁项,而不同的簇或多或少有不同的频繁项(99)。将文档看成事务,词条看成项,便可将该方法用于文档聚类。比如,包含windows的文档可能与renovation有关,包含apple的文档可能与水果有关;如果有较多文档同时包含了这两个词,这些文档可能谈到了同一个主题,即操作系统。(FTC)
  • HFTC (02) 试图解决FTC没有形成层次状簇的问题。在准确性上与BKM相当,但可扩展性差。另外HFTC依赖于所选项集的顺序。 
  • FIHC (03) 满足聚类有关的所有要求。FIHC以簇为中心,经典的划分与层次方法以文档为中心。FIHC第一步是发现隐藏的主题,再在第一步的基础上进行文档聚类,可以改善聚类质量。
  • 对FIHC的实验评估:FIHC在文档向量中使用全局频繁项,降低了文档集的维度。实验表明降维能使算法执行效率提高,可扩展性增强。FIHC在聚类100K个文档只要花几分钟,而HFTC和UPGMA方法没有提高这种聚类方案。同时FIHC方法的准确性也超过了其它方法。FIHC方法允许用户输入一个可选参数,即簇的数目。即使不指定,也可以获得接近最优的精确度。另外,每个簇附有标签,方便浏览。
  • CFWS和CFWMS (07):实验表明CFWS算法比BKM,BBK,FIHC(使用频繁项集)的聚类准确性更高。由于CFWMS能识别不同词形表达的相同词意的词意序列,因此CFWMS在大多数情况下比CFWS有更好的F值。

3. 资源下载

  • 中英文停用词表
  • FIHC源码
  • 文本训练语料和测试语料(注:该语料由谭松波博士整理,中文原始文本,共10类)
  • 原始中文文本数据集(未处理,未分类,共60篇)