下面用几幅图对比我们的算法与清华NLP实验室的算法结果:


清华

Chindle内容设计【3】_算法

Chindle内容设计【3】_算法_02

Chindle的效果(非同一个账号):

Chindle内容设计【3】_算法_03

Chindle内容设计【3】_词性_04


Chindle的算法很简单:

1、分词

2、stopword过滤

3、词性过滤(只留下名词和形容词)

4、按照频率排序,去掉出现频率特别高的词汇(出现了10次以上)