词向量---LSA(Latent Semantic Analysis)_相似度

 

举例:

词向量---LSA(Latent Semantic Analysis)_二维_02

 

词向量---LSA(Latent Semantic Analysis)_参考文献_03

 

 

词向量---LSA(Latent Semantic Analysis)_二维_04

词向量---LSA(Latent Semantic Analysis)_相似度_05

矩阵分解之后,取前两维,k=2,

 词向量---LSA(Latent Semantic Analysis)_矩阵计算_06

 

单词距离:

词向量---LSA(Latent Semantic Analysis)_矩阵计算_07

 

文档距离:

词向量---LSA(Latent Semantic Analysis)_矩阵计算_08

 

通过LSA分析之后计算文档间的余弦相似度,属于同一个类型文本之间的相似度很接近;在原始文档间计算相似度,效果不如LSA

 词向量---LSA(Latent Semantic Analysis)_相似度_09

 

 当出现新的query,先将query降到二维空间,再和已有文档的二维矩阵计算相似度,可以看出query与C类文档相似度很高

词向量---LSA(Latent Semantic Analysis)_矩阵计算_10

 

 

 

参考文献:

【1】视频:清华大学【数据挖掘:推荐算法】