由于工作需要,我需要判断一篇文章是否是你喜欢的文章。
这涉及到文本分析,有一个简单的方法可供参考。向量空间模型(VSM)算法。
在该方法中,我们把一篇文章抽象成一个向量。
假设向量由n个词组成,每个词的权重是kn。假设文章D是你喜欢的文章,那么
如果维数很多,将来计算起来很麻烦,我们需要降维处理,所谓的降维就是,选出有代表性的特征词,这样就降低了维数。 可以人工选择。也可以自动选择,自动选择的话,可以采用开方拟和检验方法,如果有时间,我会在以后详细介绍该方法。
选择特征词后,就需要计算它的权重了,可以采用词频来计算,Term frequency TF = N/M M为文章的词数,N为该特征词出现的词数。 当然了,如果你选择的特征词是 “的” 这个很一般的词 ,我们还需要为其修正。计算Inverse documentfrequency 逆向文本频率,是用于衡量关键词权重的指数 IDF = log(D/Dw) (手画的公式,请多包涵。) 其中D为总文章数,Dw为关键词 出现过的文章数。
计算结束后,我们得出你喜欢的文章D = (w1,w2,w3....wm); 共有m个关键词,权重依次为w1,w2...wm。
    2个多维向量的夹角余弦计算公式:cosθ = 

  
编外的编外:向量空间模型(VSM)算法把一个语言的问题转化成了一个数学问题,这种思想非常的好,我们可以尝试着,把一些问题转化为数学问题,用数学的手段来解决。这就需要我们赋予问题,数学上的意义,例如本文,将文章赋予 多维向量的意义。
编外的编外的编外: 为啥那个你喜欢的文章我取名叫D? 有没有看过《吸血鬼猎人D》主角的名字就叫做D,他是吸血鬼王和人类女人的儿子,所以不怕阳光,还有吸血鬼的能力,专门猎杀吸血鬼,而且永远不老。超酷的动画电影,画风精致。
 
 
 
                     
            
        













 
                    

 
                 
                    