发表于ACL2018
解决的问题:
DS-QA中的noise问题:许多包含答案但其实无关的段落。以往方法采用先选取一个最有可能的段落,再从中抽取答案。这样会损失信息。有人采取了Re-ranking机制,但仍依赖原有DS-QA system。本文采用从粗到细的方法,先利用IE抽一部分段落,再快速筛选出可能性高的段落,再从中选取答案。
采用的方法:
对于IE之后的段落,采用Bi-LSTM编码,对Question也用Bi-LSTM+attention-weighted编码,对段落打分(softmax(max p_i*W*q))
答案选取用Bi-LSTM预测每个位置作为起始位置和终止位置的概率
notes:
对段落打分时,采用max-pooling。因为一个段落包含答案的概率取决于最大局部。
正则化项。正确段落的打分应该相同。