自动文摘(Automatic document summarization)方法综述(一)——基于中心的(Centroid-based)、基于图的(graph-based)

从Luhn1958年发表第一遍自动文摘论文开始,自动文摘(Automatic document summarization)一直是自然语言处理中最为活跃的分支。自动文摘希望通过计算机自动将冗长的文本压缩到规定长度内,同时保持原始文本主要信息不丢失。在信息爆炸的互联网时代,每时每刻互联网上都在积累更多的文本;而移动互联网的到来,对信息的呈现方式也提出了更高的要求,因此自动文摘的重要性和迫切需求更为凸显。一份自动文摘的质量主要从以下三方面进行度量:

  1. 信息的覆盖度(coverage of information):这是自动文摘最需要保证的基础,摘要的内容要尽可能的覆盖原始文本传达的信息,保留最重要的信息,这样的摘要才不会对读者造成误导。
  2. 内容的冗余度(redundancy in information):也可以理解成内容的多样性(diversity),摘要的长度有着严格的限制,如果对某一方面的内容描述占用了大部分篇幅,不仅会造成冗余也会影响后续内容的生成。因此一份合格的摘要既要准确的描述各方面的信息,也要保证描述的简练
  3. 内容的可读性(coherent/readable text):生成的摘要要内容连贯,可读性强

至今,各种各样的自动摘要方法被提出,根据摘要的生成方式,自动文摘方法可以分为抽取式摘要(extractive summarization)和生成式摘要(abstractive summarization)。抽取式摘要直接从原始文本中抽取具有显著性的句子构成摘要,这类方法虽然相对简单粗暴,但是直接复用原文中的句子能够准确的捕获原文意图;另一方面,因为是句子级别的操作,生成的摘要连贯性较低,可读性因此会差一些。生成式摘要采用更加复杂的自然语言生成技术,在对原文理解的基础上,生成新的描述形成摘要,因此可能出现原始文本中不存在的单词句子,这类方法更加贴合人类手写摘要的过程,因此生成的摘要可读性更强,但对内容的复现上可能会有偏差。
本系列将关注自动文摘的研究进展,对该领域的主要论文进行整理。首先将专注于抽取式方法,总结其中最具代表性的几类方法,本文是该系列的第一篇。

1、基于中心(Centroid-based)的方法

Radev, Dragomir R., et al. “Centroid-based summarization of multiple documents.” Information Processing & Management 40.6(2004):919-938.
中心性(centrality)可以看作是句子的一个统计特征,Radev在2004年的论文中明确提出将中心度作为句子重要性度量的一个特征,扩展了传统的基于统计(Statistical-based)的方法,常用的统计特征包括但不限于以下:句子位置(position)、关键词频率(TF)、TF-IDF、首句/标题相似度(resemblance)、句子相对长度(length)、专有词(numerical data,name entity etc.)、信息熵(information gain)、互信息(mutual information)等。
在该论文中,作者提出了一种基于中心的多文档摘要方法,作者将中心(centroid)定义为:统计上能够代表关于某一主题的一系列文章的单词集合。因此首先要对文档进行聚类,确定簇中心,步骤如下:

  • 将每篇文章用TF-IDF向量表示;
  • 将初始中心确定为第一篇文章;
  • 比较后续文章与中心的相似度,在阈值范围内,则加入类簇中,同时更新TF-IDF,生成新的中心;
    S i m ( D , C ) = k ( d k c k i d f ( k ) ) k ( d k ) 2 k ( d k ) 2
  • 迭代步骤二、三,直至处理完所有文本,形成一个个文章簇和簇中心。

假设:如果一个句子含有越多的中心词,那么这个句子越能代表这个文章簇。因此作者考虑以下三个特征作为句子筛选的依据:

  • 中心值: C i = w C w , i
  • 位置值: P i = n i + 1 n C m a x
  • 首句吻合度: F i = s 1 s i

最终句子总得分为

S C O R E ( S i ) = ω c C i + ω p P i + ω f F i

2、基于图(graph-based)的方法

基于统计特征的方法只能从预先规定好的特征上孤立的给每个句子打分,忽略了文本自身的结构,因而有研究者提出了基于图(graph-based)的方法,将文本表示成一个图模型,充分利用文本自身的结构,在全局上(global information)确定文本单元(句子、单词短语、unigram、bigram、trigram)的重要度。在图模型中,文本单元被表示成顶点,边用来连接具有相似性的两个顶点。在网络建立好后,重要句子通过随机游走(random walk)算法被筛选出来。
①Mihalcea, Rada, and P. Tarau. “TextRank: Bringing Order into Texts.” Emnlp (2004):404-411.
TextRank算法是基于图模型的文本摘要最具代表性的方法,由Mihalcea等人于2004年提出。TextRank采用与Google PageRank类似的算法用于确定句子重要度,其背后的思想是“voting”或者“recommendation”。当一个顶点链接到另一个顶点时,它也完成了对另一个顶点的一次投票,当为一个顶点投的票数越多,这个顶点的重要性也就越高。此外,投票顶点自身的重要性也决定了该次投票的分量,PageRank算法也考虑了这一信息。因此,一个顶点的重要性由这个顶点收到的投票数以及投这些票的顶点的重要度共同决定。

S ( V i ) = ( 1 d ) + d j I n ( V i ) 1 | O u t ( V j ) | S ( V j )

其中d是阻尼系数,在0-1之间取值,通常设置为0.85。TextRank对PageRank稍作了修改,(1)用无向边代替了有向边;(2)用带权图替代了无权图,边的权值是相连两顶点的相似度。

W S ( V i ) = ( 1 d ) + d V j I n ( V i ) ω j i V k O u t ( V j ) ω j k W S ( v j )

TextRank算法主要步骤如下:

  1. 确定最适合待解决问的文本单元,并将它们作为顶点加入图模型中;
  2. 定义连接文本单元的关系,用这些关系补全图中的边;
  3. 迭代基于图的排序算法直至收敛;
  4. 基于顶点最终得分对顶点进行排序。

TextRank可以用于关键词提取也可以用于文本摘要。在关键词提取方面,图的顶点表示从文本中提取的一个或多个词汇单元组成的序列,边定义为顶点之间的共现(co-occurrence)关系:如果两个顶点对应的词汇单元在大小为N的窗口中共同出现(co-occur),则在这两个顶点之间添加一条边。共现窗口的大小N通常设置为2-10。在句子抽取方面,图的顶点代表句子,边表示顶点对应的句子之间的相似度(similarity),作者在论文中将相似度定义为两个句子内容的重合度:

S i m i l a r i t y ( S i , S j ) = | { w k | w k S i w k S j } | l o g ( | S i | ) + l o g ( S j )

②Erkan G, Radev D R. LexPageRank: Prestige in Multi-Document Text Summarization[C], EMNLP 2004, 2004:365-371.
LexRank是同一时期另外一个研究组提出的一种与TextRank类似的基于图的文本摘要模型。在论文中,作者假设:与文档簇中很多句子相似的句子更加靠近文档簇的主题中心。关于重要度有两点需要澄清:
一、如何定义两个句子之间的相似度,在论文中作者采用了TF-IDF余弦相似度

S i m i l a r i t y ( x , y ) = w x , y t f w , x t f w , y ( i d f w ) 2 x i x ( t f x i , x i d f x i ) 2 y i y ( t f y i , y i d f y i ) 2

二、在给定一个句子与其他句子的相似度之后,如何计算句子的overall centrality。作者首先设定了一个阈值,过滤掉相似性较低的值,构成一个无向无权图。随后作者定义了两种centrality:
1、Drgree Centrality

猜你喜欢

转载自blog.csdn.net/hohaizx/article/details/81585260