文本摘要方法实现 textrank文本摘要

转载

TextRank文档摘要

思想：借用pagerank的思路，把词和句看成”顶点”，把他们的共现看成”边”，可以认为，存在共现关系，即可视为一种”推荐”，通过迭代，使得到更多推荐的节点取得更高的分值，用以提取关键词、关键句子。

文本摘要方法实现 textrank文本摘要_文本摘要方法实现

某网页Vi的得分，由两个部分构成，其中1-d是为防止出现零值，d右边的部分，是引用该网页的各网页Vj的投票之和，投票值等于该网页的打分S(Vj)除以它的出度，d一般取经验值0.85

应用到关键词提取和句子提取上，也是类似的，只是作者在pagerank的公式上作了修改，加入了得分权重，而在原始的pagerank中，所有的出链被当作是完全同等的，因此公式变为

文本摘要方法实现 textrank文本摘要_数据集_02

过滤停用词和不重要的词之后，把有意义的词看成顶点，窗口内的上下文共现的词与之连成边。实现表明，窗口大小为2,即只考虑相邻词时，效果最好，实现中只抽取了unigram，如果被选取的关键词在段落中相邻，则将之拼在一起作为phrase，并且，在只选取了名词和形容词时效果最好。

实验的对比对象为当时的最好结果，它用的是有监督方法，特征上考虑了文档内词频、数据集词频、首次出现的相对位置和postag序列

实验还对比了有向图的结果，即把词的出现顺序作为出/入方向，但结果不如无向图，且正向逆向的结果完全相等。

抽取句子时，句子为顶点，句子内存在共同的词看成连接，把句子的相似度作为权重

由于该方法是无监督方法，对语料和计算量要求不高，且效果比较好，目前是文本摘要的主流方法之一

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯