提取摘要 nlp 提取摘要关键词

转载

jowvid 2024-06-05 06:20:50

文章标签 提取摘要 nlp 关键词提取权重邻接矩阵迭代 文章分类 NLP 人工智能

关键词提取和文本摘要算法TextRank详解及实战

写在前面

最近一直没有更新文章，实在惭愧。伴随着小老弟的职业方向由风控转向了NLP，后面的文章也会集中在NLP领域，希望大家能够继续支持~

导读

本文围绕原理和特点介绍了关键词提取和文本摘要算法TextRank，并给出了实现代码和算法效果。

TextRank主要有关键词提取和文本摘要两个功能，在Jieba分词里也有集成，在介绍TextRank的原理之前，必须介绍下PageRank，理解了PageRank，也就理解了TextRank的精髓。

PageRank

PageRank算法用于解决互联网网页的价值排序问题，对于某个关键词的搜索，往往会有很多网页与之相关，如何对这些网站进行排序然后返回给用户最有”价值“的网站？最直观的，对每个网页进行“打分”，而打分标准至关重要。

PageRank考虑到不同网页之间，一般会通过超链接相连，即用户可以通过A网页中的链接，跳转到B网页，这种互相跳转关系，可以理解为一种“投票”行为，A网页连接到B网页，表示A网页对B网页的认可，即A网页给B网页投了一票。给B网页投票(链接)的越多，B网页的价值也就越大，所以：

提取摘要 nlp 提取摘要关键词_迭代

公式中，某个网页的价值，是由连接到(进入)这个网页的每个网页的价值和对应的权重决定的。一个网站，如果越多的网站链接到它，说明这个网站越有价值，为什么要加入一个权重呢？公式可以看到，权重是从某个网页链接出去的数量的倒数，数量越多，权重越小，好比是投票，某个人投出的票越多，说明这个人的票越没有含金量。

从公式中可以看到这是一个迭代公式，所以存在“先有鸡还是先有蛋”的问题，对于这个问题，解决办法是给每一个节点一个初始值，一般是1/N，N即N个网页。

假设现在有5个网页：

提取摘要 nlp 提取摘要关键词_权重_02

提取摘要 nlp 提取摘要关键词_邻接矩阵_03

……

小老弟就不挨着算了，可以看到这样计算是非常麻烦的，同时对于这5个网页之间的关系表示，也非常麻烦，很不优雅，很不数学，所以就要引入一个新的概念-邻接矩阵(Adjacency Matrix)。

首先介绍一个词：图(Graph)。做知识图谱的肯定很了解它，当然，随着相关理论的发展，图论越来越多的出现在了机器学习和深度学习的各个领域，并且取得了很好的效果。

这里就进行简单的介绍，所谓“图”，由节点(node)和边(edge)构成，在这里，节点就是网页，两网页间是否存在边则由两网页是否存在超链接决定。

前面的图中，可以认为是A-E 5个网页构成的图，节点与节点之间存在着边，图中存在箭头，此时的图称为“有向图”。

B到C的箭头表示B网页有到C网页的链接，而A、B之间的箭头表示A、B网页之间相互链接。

这是图的直观展示，如何转化成数学表示呢？就要靠邻接矩阵。

提取摘要 nlp 提取摘要关键词_迭代_04

G就是表示上面图的邻接矩阵，第i行第j列为1，表示第i个节点到第j个节点有边，比如第1行第2列，表示节点A到节点B的边。G中的1表示无权重的图，如果是有权图，则这里的1可以替换为相应权重。

有了邻接矩阵，通过标准化，我们可以计算出概率转移矩阵：

提取摘要 nlp 提取摘要关键词_邻接矩阵_05

第i行表示进入到第i个节点的概率分布，而第j列，表示第j个节点的出节点概率分布。这里突然扯到了概率转移矩阵，实际这是对前面的“投票”打分机制的一种概率抽象，可以这么理解，给到一只猴子和一台电脑，这个猴子随机选择一个网页，然后随机点击网页上的超链接在网页中跳转，一段时间后，猴子在每个网页上停留的概率都会有一个稳定值，这个值就是我们要求的每个网页的“价值”。

我们可以用一个5维列向量S表示5个节点的概率初始值,也就是一个随机向量。

提取摘要 nlp 提取摘要关键词_邻接矩阵_06

相当于我们对随机向量S反复进行W概率转移过程，补充一点，公式(3)中，概率转移矩阵W左乘随机列向量S，所以W是一个左随机矩阵，也有相反的情况，即概率矩阵右乘随机行向量，那么这个时候就是一个右随机矩阵。

我们利用矩阵运算来进行前面的迭代公式计算：

第一轮：

提取摘要 nlp 提取摘要关键词_提取摘要 nlp_07

我们希望得到一个稳定值，于是迭代100轮，

提取摘要 nlp 提取摘要关键词_关键词提取_08

收敛到几乎为0了，这显然是不合理的，为什么呢？实际上，这也是PageRank最初遇到的问题之一，即Dead Ends问题，回到最上面的A-E节点的连接图，可以看到，D节点不存在外链，这种节点，就称为Dead Ends，解决办法呢，就是加入一个阻尼因子：

提取摘要 nlp 提取摘要关键词_关键词提取_09

其实这个d有些类似机器学习中目标函数里的正则项，加入的作用也是让整个计算更平滑一些。

此外，虽然前面说W矩阵是概率转移矩阵，但它并不真正满足概率转移矩阵的定义：

矩阵各元素都是非负的，并且各行(列)元素之和等于1，在一定条件下是互相转移的。

同时，求S的过程，实际是一个马尔科夫收敛过程，而马尔科夫收敛，也需要满足一定的条件，首先必须满足转移矩阵的定义，其次转移矩阵不可约，且非周期。转移矩阵不可约指的是每一个状态都可来自任意的其它状态，也就是任意两个网页都可以通过若干中间网页链接。周期指的是存在一个最小的正整数 k，使得从某状态 i 出发又回到状态 i 的所有路径的长度都是 k 的整数倍，也就是DeadEnds问题，这里由于d的存在，也使得非周期性得到满足。

同样基于公式进行计算，第一轮：

提取摘要 nlp 提取摘要关键词_提取摘要 nlp_10