深度学习短文聚类算法代码常见的文本聚类算法

转载

半夜未央好 2024-01-25 21:33:50

文章标签 深度学习短文聚类算法代码人工智能操作系统聚类可扩展性 文章分类 深度学习人工智能

1. 文档聚类要求

高维度：一个文档集包含成千上万个词条，每个词条构成文档向量中的一个维度
可扩展性：真实数据集包含成百上千的文档，大多数算法只在小数据集上效果好
高准确度：簇内高相似，簇间低相似
有意义的簇标签
无需先知的领域知识：对输入参数不敏感

2. 文档聚类方法

2.1 层次聚类方法

不同的AHC变体(02、03)采用不同的相似度测度方案。HC方法一旦执行合并或分裂就不能调整，缺乏灵活性，降低了聚类精度。
UPGMA被认为是层次聚类中准确性最高的方法(90)。由于UPGMA在簇间相似性计算上的复杂度高，导致其可扩展性差(03)。

2.2 划分聚类方法

Steinbach(00)指出BKM (02)在准确性和效率上好于基本的KM(99)和AHC(90)
基本KM和BKM相对来说效率较高，可扩展性好，计算复杂度与文档数成线性比。
KM算法的缺点是要求输入参数K，不适于发现大小相关较大的簇，对噪声敏感。
K中心点算法试图解决噪声问题，但计算成本高，可扩展性差。

2.3 基于频项集的聚类方法

使用频繁项集聚类事务数据产生了新的聚类标准：一个簇中的事务应共享多的频繁项，而不同的簇或多或少有不同的频繁项(99)。将文档看成事务，词条看成项，便可将该方法用于文档聚类。比如，包含windows的文档可能与renovation有关，包含apple的文档可能与水果有关；如果有较多文档同时包含了这两个词，这些文档可能谈到了同一个主题，即操作系统。(FTC)
HFTC (02) 试图解决FTC没有形成层次状簇的问题。在准确性上与BKM相当，但可扩展性差。另外HFTC依赖于所选项集的顺序。
FIHC (03) 满足聚类有关的所有要求。FIHC以簇为中心，经典的划分与层次方法以文档为中心。FIHC第一步是发现隐藏的主题，再在第一步的基础上进行文档聚类，可以改善聚类质量。
对FIHC的实验评估：FIHC在文档向量中使用全局频繁项，降低了文档集的维度。实验表明降维能使算法执行效率提高，可扩展性增强。FIHC在聚类100K个文档只要花几分钟，而HFTC和UPGMA方法没有提高这种聚类方案。同时FIHC方法的准确性也超过了其它方法。FIHC方法允许用户输入一个可选参数，即簇的数目。即使不指定，也可以获得接近最优的精确度。另外，每个簇附有标签，方便浏览。
CFWS和CFWMS (07)：实验表明CFWS算法比BKM，BBK，FIHC(使用频繁项集)的聚类准确性更高。由于CFWMS能识别不同词形表达的相同词意的词意序列，因此CFWMS在大多数情况下比CFWS有更好的F值。

3. 资源下载