TextRank

自动文摘（Automatic Summarization）的方法主要有两种：Extraction和Abstraction。
其中Extraction是抽取式自动文摘方法，通过提取文档中已存在的关键词，句子形成摘要；
Abstraction是生成式自动文摘方法，通过建立抽象的语意表示，使用自然语言生成技术，形成摘要。
由于生成式自动摘要方法需要复杂的自然语言理解和生成技术支持，应用领域受限。    
TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法, 
通过把文本分割成若干组成单元(单词、句子)并建立图模型, 
利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。
和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。

输入图片说明

该公式仅仅比PageRank多了一个权重项Wji，用来表示两个节点之间的边连接有不同的重要程度。TextRank用于关键词提取的算法如下：
1)把给定的文本T按照完整句子进行分割
2)对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，剩下保留后的候选关键词。
3)构建候选关键词图G = (V,E)，其中V为节点集，由（2）生成的候选关键词组成，然后采用共现关系（co-occurrence）构造任两点之间的边，
两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。
4)根据上面公式，迭代传播各节点的权重，直至收敛。
5)对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。
6)由5得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。

TextRank算法提取关键词短语
提取关键词短语的方法基于关键词提取，可以简单认为：如果提取出的若干关键词在文本中相邻，那么构成一个被提取的关键短语。
TextRank生成摘要
将文本中的每个句子分别看做一个节点，如果两个句子有相似性，那么认为这两个句子对应的节点之间存在一条无向有权边。
考察句子相似度的方法是下面这个公式：

输入图片说明

公式中，Si,Sj分别表示两个句子，Wk表示句子中的词，那么分子部分的意思是同时出现在两个句子中的同一个词的个数，
分母是对句子中词的个数求对数之和。分母这样设计可以遏制较长的句子在相似度计算上的优势。

可以根据以上相似度公式循环计算任意两个节点之间的相似度，根据阈值去掉两个节点之间相似度较低的边连接，
构建出节点连接图，然后计算TextRank值，最后对所有TextRank值排序，选出TextRank值最高的几个节点对应的句子作为摘要。

参考链接：https://www.cnblogs.com/xueyinzhe/p/7101295.html

猜你喜欢