论文
Question Generation for Question Answering
Nan Duan
Microsoft Research Asia
2017
原文链接
这篇是从长文章中利用两种方式CNN和RNN来生成高质量的问题,并利用生成的这些问题来进一步提高QA的表现,这篇和下一篇是一个作者的文章。
数据集:SQuAD, MS MARCO, and WikiQA
结构:
整个QG结构分为四个部分,Question Pattern Mining,Question Pattern Prediction,Question Topic Selection,Question Ranking
Question Pattern Mining
将问句输入YahooAnswers获得一系列相关的问题,这些问题构成了一个question cluster。在这个cluster中,n gram出现的频率越高越有可能是topic word
Question Pattern Prediction
给定一篇文章,利用一些关键短语,eg co-founded by -> who found # ?,预测相关的question pattern有哪些。训练数据格式为 ,预测时输入为 。
A是answer, 是question pattern, 是question type
– Attention + CNN 将predict视为一个ranking的任务
– Attention + Bi-GRU RNN 将predict视为一个生成任务Question Topic Selection
– 对于第一种attention + CNN,先利用freebase提取实体和stanford sparser提取名词词组作为question type的候选,然后计算这些候选qt与预测的question type对应的每个historical question topic的相似度,取相似度较高的topic。
– 对于第二种attention + Bi-GRU RNN,对于S中所有单词计算S与 的attention概率来选取topic。这里softmax输出维度只用前一部分频率最高的question word,对于OOV(out of vocabulary),用attention probability最高的单词替换,类似一种copy机制。Question Ranking
question pattern prediction score + question topic selection score + QA matching score + word overlap between Q and S + question pattern frequency这五个分数的线性之和
评价标准:BLEU4
实验结果:seq2seq和两种模型的对比
Question Answering and Question Generation as Dual Tasks
Nan Duan
Microsoft Research Asia
2017
原文链接
本文提出了一种新的训练框架,同时训练两个模型,将QG和QA视作一个互相促进的过程。
作者将这个称为dual,个人觉得和GAN的思想差不多
模型:
第一个是QG过程,第二个是QA过程
结构:
QG是一个seq2seq的生成模型,损失函数为
QA是一个双向GRU RNN,将Q和A拼接起来作为一个连续的输入,训练时对认为正确的answer打label为1,反之label为0,最小化错误label。
最后dual的时候损失函数为
评价标准:MAP MRR P@1(QA);BLEU4(QG)
实验结果:
例子: