Coreference Resolution学习笔记(二):朴素Hobbs算法和Mention Pair模型

一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第7天,点击查看活动详情

导语

学习需要,对Coreference Resolution(指代消解)进行了解使用。本次学习资源为经典的斯坦福CS224n 2021课程,视频链接为:www.bilibili.com/video/BV18Y…

本篇博客沿着上一篇的思路继续介绍,主要分为以下几个部分:

  • 不同的指代类型
  • 基于规则的Coreference Resolution方法:Hobbs算法
  • Mention Pair模型

不同的指代类型

再了解一些Coreference Resolution的模型之前,我们再补充一点语言学的知识。首先,我们需要了解Coreference(指代)与Anaphora(回指)的区别。

  • 当两个mention指向世界上同一个实体时,被称为Coreference。例如:[Barack] Obama traveled to New York and [Obama] enjoy this trip.
  • Anaphora则是指下文的词反指或代指上文的词,anaphor 的解释在某种程度上取决于 antecedent 先行词的解释。例如:[Barack Obama] said [he] would sign the bill.

cs224n-2021-lecture13-coref_page-0015.jpg 他们的区别如可以用下图展示:

cs224n-2021-lecture13-coref_page-0016.jpg

  • 并不是所有的名词短语都有指代

    • Every dancer twisted her knee
    • No dancer twisted her knee

    • 每一个句子有三个NPs;因为第一个是非指示性的,另外两个也不是

image.png

  • 不是所有的回指关系都有指代,如下图所示,concert和the ticket之间是一种被称作bridging anaphora的语言现象,因为他们的关系是the ticket of concert。

image.png

image.png

回指有时并不一定在前面,有时候指代的名词可能在后面出现,这种现象称为cataphora。但一般来说,我们不会去区分anaphora和cataphora,而统称为anaphora。

语言通常都是在上下文中被解释的,我们之前也看到过很多例子。比如

  • I took money out of the bank
  • The boat disembarked from the bank

这两句话中的bank单词含义就不一样,第一个指的是银行,第二个指的是河岸。在长文本语句或段落中,Coreference经常被用到。故Coreference和Anaphora是我们进行自然语言文本理解的关键点之一。

image.png

四种不同种类的Coreference模型

在了解完以上基础知识后,这里介绍四种不同类型的Coreference模型,主要包括:

  • 基于规则的模型
  • Mention Pair
  • Mention Ranking
  • 聚类

传统的代词回指方法:朴素Hobbs算法

Hobbs算法于1978年由Hobbs提出, 是最早的共指消解算法之一。改算法是基于纯规则的算法, 其大致流程如下:先对文本进行句法分析,构建出文本的句法分析树。之后先固定一个照应语, 然后在句法分析树上从照应语节点开始按照一系列规则进行反复地回溯和广度优先遍历,直至找到先行语。

朴素Hobbs算法具体规则如下图所示:

image.png

image.png

这里,manning举了一个简单的例子。算法首先找到代词him,然后根据规则,最终判定它指向的是最开始的名词短语Niall Ferguson。

image.png

但同时,这种简单的规则无法考虑语义信息,将会带来很多问题,这里有几个例子。

  • She poured water from the pitcher into the cup until it was full.
  • She poured water from the pitcher into the cup until it was empty.

这里,两个句子具有相同的语法结构,但是出于外部世界知识,我们能够知道倒水之后,满的是杯子(第一个 it 指向的是 the cup),空的是壶(第二个 it 指向的是 the pitcher)。

  • The city council refused the women a permit because they feared violence.
  • The city council refused the women a permit because they advocated violence.

而这里,第一个they代指的the women,第二个则是the city council。

尽管有这些问题,但是直到2015年左右,Hobbs算法仍是一个很强的baseline。

image.png

Mention Pair的Coreference模型

一种使用机器学习解决Coreference Resolution的最朴素方式即对任意两个mention之间作出判断,即这两个mention是否指向同一个实体。

比如,我们可以训练一个二分类器。对于任意两个mention,预测他们是同一类指代的概率 p ( m i , m j ) p(m_i,m_j) ,使得正样本预测概率接近1,而负样本预测概率接近0。

image.png

这样一个简单的二分类器,训练时的损失函数定义如下:

image.png 而在测试时,我们要把所有同一类的指代进行聚类。

由于我们已经预测了任意两个mention之间共指的概率,所以我们只需要设置一个阈值(比如0.5)来进行连边即可。

同时,我们也要保证闭包性。举个例子,加入she-->I和she-->my的链接后,我们要手动添加my-->I的连接。

image.png

但这样连接时,一旦有一个错误的连接,将会导致整个类别全部都产生错误。比如my-->he存在一条连接,那么所有的代词mention都将会被聚类到同一个类别。

image.png

同时,假设我们的长文档里有如下的很多mentions。许多 mentions 只有一个清晰的先行词,但我们要求模型来预测它们是非常困难的。相反,训练模型为每个 mention 只预测一个先行词,则在语言上更合理。

image.png

总结

本篇博客首先介绍了英语语言学中关于指代的不同类型,之后,分别讲解了传统的基于规则的指代消解方法--朴素Hobbs算法和利用机器学习的Mention-pair模型。最后,分析了几个Mention-pair模型的优缺点。下一篇博客,我们将对Mention-pair模型进行改进。

猜你喜欢

转载自juejin.im/post/7083665546037690381