ACL 2019 Searching for Effective Neural Extractive Summarization-What Works and What's Next

这篇论文来自ACL 2019 的《Searching for Effective Neural Extractive Summarization:WhatWorks and What’s Next》，它并没有提出一个新的模型还是新的想法，而是针对目前在抽取式摘要生成领域中所存在问题的一些思考。当我们使用传统的机器学习处理NLP任务时，往往需要大量的特征工程从数据中提取出对任务有用的特征。随着深度学习的发展，特别是神经网络的普遍使用，人们不再需要主动的去寻找有用的特征，而是把特征提取的工作交给网络模型去完成，而且往往可以取得比先前方法好的多的效果。

这种趋势在文本摘要方向也是如此，不同的深度神经网络不断地提升着生成摘要的质量。但是为什么它们表现得这么好？我们又怎样可以再做改变继续提升呢？这个问题并没有得到很好的解答。因此作者在本文中希望通过实验来更好的理解不同的网络架构（model architecture）、知识迁移（transferable knowledge）和学习模式（learning schemas）是如何影响抽取式摘要生成系统的效果。希望借助对于实验结果的观察和分析，提出一些有效改善模型效果的建议，并为后来的抽取式摘要工作提供有效的指导。

从网络结构出发，作者的思考主要围绕这三个问题展开：

不同的网络架构选择如何影响摘要生成系统的表现？
对于特定的数据集而言，模型的哪一部分所起到的作用更为关键？
当前的摘要生成系统是否存在结构工程过度的问题？

从知识迁移和学习模式考虑主要为：

哪一种预训练模型对于摘要生成任务更加的有益？
假设我们已经探索了所有的网络架构，能否通过改变知识迁移的方式或是学习模式来进一步的提升效果呢？

总体来说，目前的抽取式摘要模型都可以分为三部分：

Encoder：这里主要比较了CNN、LSTM、Transformer三种
Decoder：这里主要比较了自回归模型和非自回归模型
external transferable knowledge：这里主要比较了BERT、Glove等

通过实验作者提出了以下的结论，详细的实验验证部分后面再说：

从模型架构来说，基于自回归模型方式效果更好
LSTM更易受模型结构改变的影响，而与之相比的Transformer的鲁棒性更好
在CNN/Daily Mail语料库上效果良好的抽取式模型主要依赖于对于句子在文档中位置信息的捕获能力
无监督方式的知识迁移效果更加好，有监督方式更易受域变化的影响
强化学习可以帮助在一定程度上提升模型的效果

网络架构选择

对于抽取式摘要生成而言，基本原理就是从文档 $D=d_{1},...,d_{n}$ 中抽取句子的子集 $R=r_{1},...,r_{m}$ ，其中每一句都包含 $|d_{i}|$ 个词。而且大部分的抽取式模型都可以分为sentence encoder、document encoder和decoder三个部分，下面的实验环境设置也分别是针对这三个部分。首先文档中的句子经过sentence encoder得到句子的向量表示，再通过document encoder得到句子的上下文表示，最后decoder根据句子的上下文表示抽取得到句子的子集用于生成摘要。

根据前人的经验可知Sentences Encoder的好坏对于最后生成的摘要的效果影响很小，因此这里选择的是基于CNN的Encoder。Document Encoder这里比较了LSTM和Transformer两种不同架构方式，它们都可以取得不错的效果。Decoder主要就是比较了基于自回归的方式和非自回归的方式，其中主要涉及的模型是Sequence Labeling（SeqLab）和Pointer Network（Pointer），前面将抽取摘要看作对句子的标注任务，属于非自回归方式

SeqLab

后者使用基于注意力机制的glimpse操作来选择句子，属于自回归方式。

Pointer Network

知识迁移

这里考虑了在其他的语料库上训练得到的预训练模型所引入的外部知识如何影响最后的效果，主要是比较了两种类型的预训练模型：

无监督的知识迁移：包括上下文独立的词嵌入（如word2vec和Glove）和基于上下文的词嵌入（如BERT等）
有监督的预训练知识迁移：主要用于探究模型在不同数据集上的迁移性

学习模式

这里比较了有监督学习和强化学习两种方式。

评价指标

ROUGE：ROUGE-1、ROUGE-2、ROUGE-L
Cross-domain Evaluation
Repetition：指生成的摘要中重复的n-grams占总的n-gram的比例，表示为 $REP_{n} = \frac{CountUniq(ngram)}{Count(ngram)}$
Positional Bias：用于研究数据集的分布和它对不同结构模型的影响，表示为 $PosBias = \sum_{i=1}^k -p(i)\log(p(i))$ 其中 $p(i)$ 表示第一个golden label（我也不了解这是个啥？）出现在文档的第 $i$ 部分的概率，这很类似于另一篇文章《Scoring Sentence Singletons and Pairs for Abstractive Summarization》的处理思想。
Sentence Length：这里计算不同的Decoder抽取的第 $k$ 个句子的平均长度，用来探究decoder是否能捕获句子的长度信息
Sentence Shuffling：用于探究句子的位置信息对于不同结构模型的影响

实验部分所采用的数据集如下

实验

整个实验环境可以表示为：

在关于Decoder的实验中作者发现，基于Pointer的decoder的效果要优于基于SeqLab的decoder，因为前者可以更好的捕获词级别的信息。实验结果如下

从中我们可以看出Pointer的效果在多数的数据集上都好于SeqLab，而且就Pointer而言，不同的数据集上LSTM和Transformer的效果也是不同的。

而且Pointer在Positional Bias和Sentence Length的效果更好一些。

关于Encoder的实验结果可以看出，Transformer在某些数据集上的效果优于LSTM，而在一些数据集上LSTM的效果又更好。但是LSTM易受到模型结构的过拟合问题的影响，而Transformer在这方面鲁棒性更好，而且训练的效率更高。另外Transformer可以更好地分解关于位置和内容的信息。

上图显示了Transformer使用不同比例的sentence embedding和positional embedding在CNN/Daily Mail上的效果，作者发现positional embedding对于模型的效果影响极大，从而突出了现在的抽取式模型对于句子位置信息的依赖。

在关于知识迁移的实验中，作者发现例如word2vec等上下文独立的词嵌入对于模型效果的影响并不大，而例如BERT等基于上下文的方式可以提升模型的效果，特别是CNN-LSTM-Pointer的模型可以达到SOTA。

而且从对于使用BERT的影响实验中作者发现，将整个文档输入到BERT中可以获取更好的句子表示，这也符合BERT优异效果的原理。

在最后一个部分的实验显示了强化学习的确可以在一定程度上提升模型的效果，实验结果显示了模型架构、知识迁移和强化学习在某些方面是存在互补性的。

总结

对于抽取式摘要模型来说，sentence encoder采用CNN架构即可，document encoder采用Transformer效果更好，decoder采用Pointer Network效果更好，而且BERT等预训练模型和强化学习可以帮助提升模型的效果。

Forlogen

发布了267 篇原创文章 · 获赞 91 · 访问量 19万+

私信关注

ACL 2019 Searching for Effective Neural Extractive Summarization-What Works and What's Next

实验

猜你喜欢