深度学习文本相似度

转载

mob64ca13ff28f1 2024-12-20 11:40:35

文章标签 深度学习文本相似度相似度权重向量空间模型 文章分类 深度学习人工智能

由于工作需要，我需要判断一篇文章是否是你喜欢的文章。

这涉及到文本分析，有一个简单的方法可供参考。向量空间模型（VSM）算法。

在该方法中，我们把一篇文章抽象成一个向量。

假设向量由n个词组成，每个词的权重是kn。假设文章D是你喜欢的文章，那么

如果维数很多，将来计算起来很麻烦，我们需要降维处理，所谓的降维就是，选出有代表性的特征词，这样就降低了维数。可以人工选择。也可以自动选择，自动选择的话，可以采用开方拟和检验方法，如果有时间，我会在以后详细介绍该方法。

选择特征词后，就需要计算它的权重了，可以采用词频来计算，Term frequency TF = N/M M为文章的词数，N为该特征词出现的词数。当然了，如果你选择的特征词是 “的” 这个很一般的词，我们还需要为其修正。计算Inverse documentfrequency 逆向文本频率，是用于衡量关键词权重的指数 IDF = log(D/Dw) (手画的公式，请多包涵。) 其中D为总文章数，Dw为关键词出现过的文章数。

计算结束后，我们得出你喜欢的文章D = (w1,w2,w3....wm); 共有m个关键词，权重依次为w1,w2...wm。

2个多维向量的夹角余弦计算公式：cosθ =

深度学习文本相似度_相似度