INSET: Sentence Infilling with INter-SEntential Transformer

这是我参与2022首次更文挑战的第22天，活动详情查看：2022首次更文挑战

读这个文章主要是为了我写论文的素材，我觉得既不属于精读也不属于粗读，可能对一些想要精读文章的并没有什么参考价值。

摘要

缺失句子生成在自然语言处理中具有广泛的应用，比如文章自动生成和会议记录扩充等。这样的任务要求模型句法语义都能连接上下文的内容。解决句子填充任务需要自然语言理解、篇章级规划和自然语言生成等自然语言处理技术。

文章就是将三个问题解耦，本文提出一个框架，利用大规模预训练模型分别解决这三个方面。

实验结果证明了所提出的模型在学习句子表征生成的有效性，并进一步生成链接上下文的缺失句子。

最近在一个句子或更长的文本中生成一段缺失标记引起了很多研究关注。这里我们研究一个相关的但是有点不同的句子填充任务，具体来说如图一。

从长文本中删除句子，对其进行缺失片段生成，使其能连贯上下文。

图1：在文本之间生成语句使其语义句法都能平滑过渡。图例是本文模型在TripAdvisor数据集上的表现。彩色文字是辅助信息关键字。即上文提到的第二种生成方法，基于上下文和辅助信息。

从tokens填充引入新任务句子填充。

长格式文本填充任务存在许多挑战。文本生成通常是一个一对多的问题，其输出可能是多种多样的。由于需不要生成语义和句法都能平滑连接独立文本片段的内容，因此这项任务需要广泛的理解、规划和生成技术。

BERT (Devlin et al., 2019) 和 GPT-2 (Radford et al., 2019) 等大规模预训练语言模型显着增强了理解和生成模型。

然而，如何将它们进行整体整合，并通过高级语义规划来分析和建立长期依赖结构仍然是一个挑战和探索，由于语义恰当性往往比句法恰当性更微妙，自回归语言模型可以很好地表征这一特征。

这方面的工作很少：

依次生成缺失部分文本，从mask标记开始直到空白结尾标记为止。可以生成任意长度文本（arXiv:1901.00158）
- 存在问题：只关注词汇的正确性，无法保证全局语义的正确性
MASS是预测文本中缺失的span而获得句子表征（ MASS: Masked sequence to sequence pre-training for language generation. ）
- 存在问题：需要指定预测长度
TIGS: An inference algorithm for text infilling with gradient search.
SpanBERT: Improving pre-training by representing and predicting spans.
- 二者与MASS的问题相同，都需要指定预测长度

提出疑问，这里写这几个真的合适吗。我感觉这几个更接近与完形填空那种感觉。

本文提出INSERT：

是一个分层文本生成。

优势：

前边拉踩半天tokens生成，引出自己的句子生成。计算需求量小的理由我不太理解。