学习NLP的第12天——文章关键词提取：TextRank

原创

Changxing长行 2021-08-26 10:46:21 博主文章分类：学习NLP的第N天 ©著作权

文章标签 python nlp 静态函数参考文献中心词 文章分类 NLP 人工智能

©著作权归作者所有：来自51CTO博客作者Changxing长行的原创作品，请联系作者获取转载授权，否则将追究法律责任

TextRank是PageRank算法在文本处理中的应用，通过将PageRank中的节点从网站替换为单词。

每个单词的“外链”均来自于单词前后固定大小的窗口内的所有单词。

给 你 形容 美好 今后 你 常常 眼睛 会 红

例如，当窗口大小而2时，上面的句子中的“美好”一词，它的窗口内就包含“你”、“形容”、“今后”、“你”这个四个词；以此类推。

在计算TextRank的过程中，窗口内的每个词都相当于给中心词投了一篇，那一票的权重等于该词投出去的所有票平分。

这样的投票方式会产生如下的效果：

一个词语左右搭配越多（信息熵越高），给这个词投票的词就越多，这个词的得分就越高。
一个词出现频率越高，就越有机会被更多的词投票，这个词的得分也会越高。

下面，我们将朱自清的《春》作为例子，使用HanLP提供的extractKeyword静态函数实现TextRank算法，提取其中的前10个关键词：

from pyhanlp import HanLP

if __name__ == '__main__':
    content = "盼望着，盼望着，东风来了，春天的脚步近了。......"

    keyword_list = HanLP.extractKeyword(content, 10)
    print(keyword_list)

运行结果

[春天, 里, 眼, 起来, 风, 雨, 乡下, 小草, 味儿, 刚]

而使用词频统计的方法提取《春》的关键词的结果如下：

[里=4, 春天=4, 起来=3, 眼=3, 风=2, 雨=2, 赶趟儿=2, 花=2, 眨=2, 盼望着=2]

相比之下，TextRank有效判断出了“春天”是比“里”更重要的关键词，但同样也存在一些问题。

学习参考文献：《自然语言处理入门》(何晗)：9.2.3

上一篇：学习NLP的第11天——文章关键词提取：TF-IDF

下一篇：学习NLP的第13天——语言模型

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯