【读】关系抽取—(2)Neural Relation Extraction with Selective Attention over Instances

读书,始读,未知有疑;其次,则渐渐有疑;中则节节是疑。过了这一番,疑渐渐释,以至融会贯通,都无所疑,方始是学。

这是一篇Relation Extraction相关的paper,出自于清华 Lin et al. 2016,Neural Relation Extraction with Selective Attention over Instances。使用CNN/PCNN作为sentence encoder, 并使用句子级别的attention机制。近几年标杆的存在,国内外新论文都要把它拖出来吊打一遍。

目录

Abstract

1 Introduction

2 Related Work

3 Methodology

3.1 Sentence Encoder

3.1.1 Input Representation

3.1.2 Convolution, Max-pooling and Non-linear Layers

3.2 Selective Attention over Instances

3.3 Optimization and Implementation Details

4 Experiments

4.1 Dataset and Evaluation Metrics

4.2 Experimental Settings

4.2.1 Word Embeddings

4.2.2 Parameter Settings

4.3 Effect of Sentence-level Selective Attention

4.4 Effect of Sentence Number

4.5 Comparison with Feature-based Approaches

.6 Case Study

5 Conclusion and Future Works

NOTE


Abstract

远程(弱监督)关系的提取已被广泛应用于从文本中寻找新的关系事实。然而,远程监督不可避免地伴随着错误的标签问题,而这些嘈杂的数据将极大地损害关系提取的性能。为了缓解这一问题,我们提出了一种基于句子的关系提取模型。在这个模型中,我们使用卷积神经网络来嵌入句子的语义。之后,我们在多个实例上建立了句子级别的关注,这将会动态地减少那些噪声实例的权重。实际数据集的实验结果表明,我们的模型可以充分利用所有信息性的句子,有效地减少错误标签实例的影响。与基线相比,我们的模型在关系提取方面取得了显著而一致的改进。

本文的源代码可以从https:  //github.com/thunlp/NRE获得。

# 待修改

本文主要做了三个工作:

(1)提出基于距离的卷积神经网络(CNN),用于远程监控关系的提取。

(2)在多个实例上建立了句子级别的关注(动态减少那些噪声实例的权重)。

(3)利用句子层次的注意力机制,提取与关系向量的关系。

1 Introduction

近年来,各种大型知识库(KBs),如Freebase(Bollacker et al.,2008),DBpedia(Auer et al., 2007)和YAGO(Suchanek et al., 2007)已经建立并广泛应用于许多自然语言处理(NLP)任务,包括网络搜索和问答。这些KBs主要是由三种格式组成的关系事实,例如(微软,创始人,比尔盖茨)。尽管现有的KBs包含大量的事实,但与现实世界中的事实相比,它们仍然远远不够完善。为了丰富KBs,许多努力都被投入到自动寻找未知的关系事实上。因此,关系提取(RE),从纯文本中生成关系数据的过程,是NLP的一项重要任务。

大多数现有的监督系统都需要大量的相关的相对特定的训练数据,这是非常耗时和消耗大量劳动力的。(Mintz等人,2009年)提出远程监督,通过调整KBs(?KBs是啥?)和文本自动生成训练数据。他们假设,如果两个实体在KBs中有关系,那么包含这两个实体的所有句子都将表达这种关系。例如,(Microsoft,创始人,比尔盖茨)是知识库中的一个关系事实。远程监督将把包含这两个实体的所有句子视为关系创建者的活动实例。尽管远程监控是一种自动标记培训数据的有效策略,但它总是存在错误的标签问题。例如,比尔盖茨转向慈善事业的判决与微软在美国和欧盟的反垄断问题有关。不表达关系的创始人,但仍将被视为一个积极的实例。因此,(Riedel等人,2010年;Hoffmann等人,2011年;Surdeanu等人,2012年)采用多实例学习来缓解错误的标签问题。这些传统方法的主要缺点是,大多数特性都是由NLP工具,如POS标记,以及NLP工具生成的错误将在这些方法中传播的。

最近的一些工作(Socher等人,2012年;Zeng等人,2014年;dos Santos等人,2015年)试图在没有人工标注特征的情况下使用深层神经网络。这些方法基于句子级的注释数据构建分类器,由于缺乏人工注释的训练数据,这些数据不能在大型KBs中应用。因此,(Zeng等人,2015)将多实例学习与神经网络模型结合起来,可以建立基于远程监控数据的关联提取器。虽然该方法在提取方面取得了显著的改善,但仍远未达到令人满意的程度。该方法假定,至少有一个句子提到这两个实体,将表达它们之间的关系,并且只在训练和预测中选择最可能的句子。很明显,这种方法会丢失大量包含在被忽略的句子中的丰富信息。

本文提出了一种基于距离的卷积神经网络(CNN),用于远程监控关系的提取。如图1所示,我们使用了一个CNN来嵌入句子的语义。然后,利用所有信息性的句子,我们将这种关系作为句子嵌入的语义组成。为了解决错误的标签问题,我们在多个实例上建立了句子级别的关注,这将会动态地减少那些噪声实例的权重。最后,利用句子层次的注意力机制,提取与关系向量的关系。我们在关系提取任务的实际数据集上评估我们的模型。实验结果表明,与当前水平的其他方法相比,我们的模型在关系提取方面取得了显著而一致的改进。

本文的贡献可归纳如下:

1.与现有的神经关系提取模型相比,我们的模型可以充分利用每个实体对的信息

2.为了解决远程监管中错误的标签问题,我们建议选择性注意去弱化那些嘈杂的实例。

3.在实验中,我们发现选择性注意有利于两种CNN模式的关系提取。

2 Related Work

关系提取是NLP中最重要的任务之一。许多工作都投入到关系的提取中,特别是在监督关系的提取中。这些方法中的大多数需要大量的带注释的数据,这是耗时和劳动密集型的。为了解决这个问题,(Mintz等人,2009)将纯文本与Freebase的远程监督相结合。然而,远程监督不可避免地伴随着错误的标签问题。为缓解错误的标签问题,(Riedel等人,2010年)将远距离的关联提取模型作为一个多实例单一标签问题进行建模,(Hoffmann等人,2011年;Surdeanu等人,2012年)在关联提取中采用多实例多标签学习。多实例学习最初是为了解决在预测药物活动时出现的带有明显标记的训练数据的问题(Dietterich等人,1997年)。多实例学习考虑每个实例的标签的可靠性。(Bunescu和Mooney,2007)将薄弱的监督与多实例学习联系起来,并将其扩展到关系提取。但是所有基于特征的方法都很大程度上依赖于NLP工具生成的特性的质量,这些特性将会受到错误传播问题的影响。

最近,深度学习(Bengio,2009)已经广泛应用于各种领域,包括计算机视觉、语音识别等。它也被成功地应用于不同的NLP任务,如词性标注((Collobert等,2011),情绪分析(dos Santos和Gatti,2014),语义解析(Socher等人,2013)和机器翻译(Sutskever等,2014)。由于最近在深度学习方面取得了成功,许多研究人员已经研究了利用神经网络自动学习特征提取的可能性。(Socher等人,2012年)使用递归神经网络进行提取。他们首先解析这些句子,然后将解析树中的每个节点表示为一个向量。此外,(Zeng等人,2014年;dos Santos等人,2015年)采用端对端卷积神经网络进行关联提取。此外,(谢等人,2016年)试图将实体的文本信息纳入关联提取。

尽管这些方法取得了巨大的成功,但它们仍然在句子层面上提取关系,并且缺乏足够的训练数据。此外,传统方法的多实例学习策略在神经网络模型中是不容易应用的。因此,(Zeng等人,2015)将至少一种多实例学习与神经网络模型结合起来,提取远程监控数据的关系。然而,他们假设每个实体对只有一个句子是活动的。因此,它将丢失大量包含在那些被忽略的句子中的丰富信息。与他们的方法不同的是,本文建议对多个实例的关注,这些实例可以利用所有信息性的句子。

基于注意力的模型最近吸引了许多研究人员的兴趣。基于注意力的模型的选择性允许他们在不同的模式之间学习对齐。它已被应用于各种领域,如图像分类(Mnih等人,2014年),语音识别(Chorowski等,2014年),图片说明生成(Xu等人,2015年)和机器翻译(Bahdanau等人,2014年)。据我们所知,这是第一次在远程监督关系提取中采用基于注意力的模型。

3 Methodology

给定一组句子{x1,x2,xn}和两个对应的实体,我们的模型测量每个关系r的概率,在这一节中,我们将在两个主要部分中引入我们的模型:

1.句子编码器。给定一个句子x和两个目标实体,一个卷积中立网络(CNN)被用来构造一个句子的分布式表示x。

2.对实例的选择性注意力机制。当我们学习了所有句子的分布向量表示时,我们使用句子层次的注意力机制来选择真正表达对应关系的句子。

3.1 Sentence Encoder

如图2所示,我们将句子x转换成它的分布式表示x。首先,句子中的单词被转换成密集的实值特征向量。接下来,利用卷积层、max-pooling层和非线性转换层来构造句子的分布式表示。x。

3.1.1 Input Representation

CNN的输入是句子x的原始单词,我们首先把单词转换成低维向量。在这里,每个输入单词通过单词嵌入矩阵转换成一个矢量。此外,为了指定每个实体对的位置,我们也使用位置嵌入来表示句子中的所有单词。

Word Embeddings。单词嵌入的目的是将单词转换成分布式表示,从而捕获单词的语法和语义含义。给定一个由m个单词x = {w1,w2, · · · ,wm}组成的句子,每一个单词都由一个实值向量表示。单词表示是由一个嵌入矩阵v中的列向量进行编码的,其中V是一个固定大小的词汇表。

Position Embeddings。在关系提取的任务中,接近目标实体的单词通常是信息性的,以确定实体之间的关系。类似于(Zeng等人,2014),我们使用实体对指定的位置嵌入。它可以帮助CNN追踪每个单词对头或尾实体的距离。它被定义为从当前单词到头部或尾部实体的相对距离的组合。例如,在“比尔盖茨是微软的创始人”的句子中。“创始人”这个词与“创始人”之间的相对距离是3和尾部实体,微软是2。

在图2所示的例子中,假设嵌入词的维度da是3,位置嵌入的维度db是1。最后,我们将所有单词的嵌入和位置嵌入连接起来,并将其表示为一个向量序列w = {w1,w2, · · · ,wm},其中wi∈Rd(d = da + db* 2)。

3.1.2 Convolution, Max-pooling and Non-linear Layers

在提取方面,主要的挑战是句子的长度是可变的,重要的信息可以出现在句子的任何区域。因此,我们应该利用所有的局部特征,并在全球范围内进行关系预测。在这里,我们使用卷积层来合并所有这些特性。卷积层首先提取局部特征,并在句子的长度l上滑动窗口。在图2所示的例子中,我们假设滑动窗口l的长度是3。然后,它通过一个max-pooling操作将所有本地特性结合起来,以获得输入句的固定大小的向量。

在这里,卷积被定义为一个向量序列w和一个卷积矩阵W∈Rdc(l*d)之间的运算,其中dc是嵌入大小的句子。让我们定义矢量qi∈Rl*d作为第i-th窗口中w字嵌入序列的串联。

因为当窗口在边界附近滑动时,窗口可能超出了句子的边界,所以我们为这个句子设置了特殊的填充标记。这意味着我们将所有的外域输入向量wi(i<1或i>m)视为零向量。

因此,卷积层的i-th过滤器被计算为:

此外,PCNN(Zeng等人,2015),是CNN的一个变体,采用分段的max-pooling进行关联提取。每个卷积滤波pi被分为三个部分(pi1、pi2、pi3),由头和尾实体组成。最大的池过程分别在三个部分中执行,这被定义为:

最后,我们在输出中应用了一个非线性函数,比如双曲正切。

3.2 Selective Attention over Instances

假设有一个集合S包含n个句子,用于实体对(head, tail),也就是S = {x1, x2, · · · , xn}。

利用所有句子的信息,我们的模型代表一个实值向量的集合S年代预测关系r。这是简单的表示集合S取决于所有句子表示x1,x2,···,xn。每个句子表示习近平包含实体是否对信息(head, tail)包含关系r输入句子xi。

然后,集合向量s被计算为这些句子向量xi的加权和:

Average:我们假设集合X中的所有句子对集合的表示都有相同的贡献,这意味着集合S的嵌入是所有句子向量的平均值:

这是我们选择性注意机制的一个基础的底线。

Selective Attention:然而,错误的标签问题不可避免地会发生。因此,如果我们对每个句子都一视同仁,错误的标签句会在训练和测试中产生大量的噪音。因此,我们用选择性的注意力机制去弱化嘈杂的句子。因此,i被进一步定义为:

在这里,ei被称为基于查询的函数,它可以记录输入句子xi和预测关系r匹配的程度。我们选择双线性形式在不同的选择中获得最佳性能:

A是一个加权对角矩阵,r是与关系r相关联的查询向量它表示关系r的表示。

最后,我们通过softmax层定义条件概率p(r |S,theta),如下所列:

nr是关系的总数量,o是神经网络的最终输出对应于所有关系类型的分数,定义如下:

(Zeng等人,2015年)遵循这样的假设:至少一提到实体对会反映他们之间的关系,并且只在每组中使用最高概率的句子进行训练。因此,他们采用的多实例学习的方法可以被看作是一种特殊的情况,当最高概率的句子的权重被设置为1,而另一些则为0时,我们的选择性注意力机制。

3.3 Optimization and Implementation Details

在这里,我们介绍了我们模型的学习和优化细节。我们在集合级别上使用交叉熵定义目标函数,如下所列:

s表示句子的数量和theta表示我们模型的所有参数。为了解决优化问题,我们采用随机梯度下降法(SGD)来最小化目标函数。为了学习,我们从训练集随机选择一个mini-batch,直到收敛。

在实施过程中,我们在输出层中使用了dropout(Srivastava等人,2014),以防止过度拟合。dropout层被定义为一个元素的乘法和一个概率p的伯努利随机变量的矢量h,然后方程(10)被重写为:

4 Experiments

我们的实验是为了证明我们的神经模型具有句子层次的选择性注意,可以减轻错误的标签问题,并充分利用信息性的句子来进行远程监督的关系提取。为此,我们首先介绍了在实验中使用的数据集和评估指标。接下来,我们使用交叉验证来确定模型的参数。然后我们评估选择性注意的效果并在不同的集合大小的数据上显示它的性能。最后,我们将我们的方法的性能与几种最先进的基于特征的方法进行比较。

4.1 Dataset and Evaluation Metrics

我们在一个广泛使用的数据表中评估我们的模型,该数据是由(Riedel等人,2010年)开发的,并且已经被(Hoffmann等人,2011年)使用。Surdeanu等人,2012年)。这个数据集是通过将Freebase关系与纽约时报语料库(NYT)结合起来生成的。实体提到的是使用斯坦福命名实体tagger(Finkel等人,2005),并与Freebase实体的名称进一步匹配。Freebase关系分为两个部分,一个用于训练,一个用于测试。它将2005-2006年的语料库的句子与这些句子相一致,并将其视为训练实例。测试实例是2007年的对齐句子。有53种可能的关系,包括一种特殊关系,表明头和尾实体之间没有关系。培训数据包括522,611个句子、281,270个实体对和18252个关系事实。测试集包含172,448个句子,96,678个实体对和1950个关系事实。

与之前的工作(Mintz等人,2009)相似,我们在held-out评估中评估我们的模型。它通过比较从测试文章中发现的与Freebase中发现的关系事实来评估我们的模型。它假定测试系统在Freebase内外的相关事实上有相似的性能。因此,被接受的评估提供了一种近似的精度测量方法,而没有时间消耗人工的评估。在我们的实验中,我们报告了总曲线精确/回忆曲线和精确@N(P@N)。

4.2 Experimental Settings

4.2.1 Word Embeddings

在本文中,我们使用word2vec工具来训练纽约时报语料库中的“嵌入”一词。我们把在语料库中出现上百次的单词作为词汇表。此外,当一个实体有多个单词时,我们将它连接起来。

4.2.2 Parameter Settings

以前的工作后,我们优化我们的模型训练集上使用三倍验证。我们使用一个网格搜索来确定最优参数,并选择学习速率对SGD { 0.1,0.01,0.1,0.01 },滑动窗口大小l∈{ 1,2,3,···,8 },嵌入的句子大小为n∈{50, 60, · · · , 300},batch sizeB在{40, 160, 640, 1280}。对于其他参数,由于它们对结果几乎没有影响,我们遵循(Zeng等人,2014)所使用的设置。对于训练,我们将所有培训数据的迭代次数设置为25。在表1中,我们展示了实验中使用的所有参数。

4.3 Effect of Sentence-level Selective Attention

为了证明句子层次的选择性注意的效果,我们通过实验来比较不同的方法。我们选择了在(Zeng等人,2014年)中提出的CNN模型,以及在(Zeng等人,2015年)中提出的PCNN模型,作为我们的句子编码器,并由我们自己来实现,从而达到作者所报告的类似结果。我们比较了两种不同类型的CNN的表现和句子水平的注意(ATT),它的原始的版本(AVE),它代表每一个句子集合作为集合中句子的平均向量和在(Zeng等人,2015)中使用的一个多实例学习 (ONE) 。

从图3开始,我们有如下的观察:

(1)对于CNN和PCNN:与CNN/PCNN相比,ONE方法带来了更好的性能。其原因是原始远程监督训练数据包含大量噪声,噪声数据将破坏关系提取的性能。

(2)对于CNN和PCNN:AVE方法与CNN/PCNN相比,对关系提取很有用。结果表明,考虑到更多的句;子对关系的提取是有益的,因为通过相互补充信息可以减少噪声。

(3)对于CNN和PCNN:AVE方法与ONE方法的性能相似。它表明,尽管AVE方法引入了更多句子的信息,但由于它对每个句子的评价都是一样的,它也会带来错误的标签句的噪声,这可能会损害关系提取的性能。

(4)对于CNN和PCNN来说,与包括AVE方法在内的其他方法相比,ATT方法在整个召回范围内达到了最高的精度。它表明,所提出的选择性注意是有益的。它能有效地过滤掉无意义的句子,并在远距离的监督关系提取中缓解错误的标签问题。

4.4 Effect of Sentence Number

在最初的测试数据集中,有74,857个实体对,只对应一个句子,几乎是所有实体对的3/4。由于我们选择性注意的优越性在于包含多个句子的实体对,我们比较了cnn/pcnn+1、cnn/pcnn+AVE和cnn/pcnn+ATT的性能,这些实体对有一个以上的句子。然后我们在三个测试设置中检查这三个方法:

1.ONE:对于每一个测试实体对,我们随机选择一个句子并使用这个句子来预测关系。

2.Two:对于每个测试实体对,我们随机选择两个句子并进行关系提取。

3.All:我们使用每个实体对的所有句子进行关联提取。

注意,我们在训练中使用所有的句子。我们将报告p@100p@200,P@300,以及每个模型的平均值。

表2显示了在三个测试设置中比较模型的P@N。从表中我们可以看到:(1)CNN和PCNN,ATT方法在所有测试设置中都取得了最好的性能。它演示了多实例学习的句子级选择性注意的有效性。(2)对于CNN和PCNN,AVE方法在一个测试设置中可以与ATT方法相媲美。然而,当每个实体对测试句的数量增加时,AVE方法的性能几乎没有任何改善。随着句子数量的增加,它甚至会逐渐在p@100p@200中逐渐下降。原因是,由于我们对每个句子的评价都是一样的,句子中没有表达任何关系的句子的噪声会对关系提取的表现产生负面影响。(3)cnn+ave和cnn+att在一个测试环境中与cnn+1相比有5%到8%的改进。由于每个实体对在这个测试设置中只有一个句子,所以这些方法的唯一区别是培训。因此,它表明利用所有的句子会带来更多的信息,尽管它也会带来一些额外的噪音。(4)对于CNN和PCNN,在这两个和所有的测试设置中,ATT方法比其他两个基线高出5%和9%。它表明,通过将更多有用的信息考虑在内,cnn+att排名较高的关系事实更可靠,对关系的提取也有好处。

4.5 Comparison with Feature-based Approaches

为了评估所提出的方法,我们选择了以下三种基于特征的方法进行比较:
Mintz(Mintz et al.,2009)是一个传统的远程监督模型。
MultiR(Hoffmann等人,2011)提出了一个多实例学习的概率图形模型,它处理重叠的关系。
MIML(Surdeanu等人,2012)联合模拟了多个实例和多个关系式。
我们使用作者发布的源代码来实现它们。

图4显示了每种方法的精确/召回曲线。我们可以观察到:(1)cn/pcnn+ATT在整个召回范围内显著优于所有基于特征的方法。当召回率大于0.1时,基于特征的方法的性能会迅速下降。与此相反,我们的模型有一个合理的精度,直到召回大约达到0.3。结果表明,人设计的特征不能简明地表达句子的语义含义,而NLP工具所带来的不可避免的错误将会损害关系提取的性能。与此相反,cnn/pcnn+ATT能自动地学习每句话的表示,可以很好地表达每句话。(2)与cnn+att相比,pcnn+att在整个召回范围内的表现要好得多。这意味着选择性注意考虑了所有句子的全局信息,除了每个句子中的信息。因此,如果我们有一个更好的句子编码器,我们的模型的性能就会得到进一步的提高。

4.6 Case Study

表3显示了两个从测试数据中选择性注意力机制的例子。对于每一个关系,我们分别显示相应的句子,分别是最高和最低的注意权重。我们用粗体显示了实体对。

从表格中我们发现:前一个例子与关系雇主有关。低注意力权重的句子并不能表达两个实体之间的关系,而高的句子则表明Mel Karmazin is the chief executive of Sirius Satellite Radio。后面的例子与出生的关系位置有关。低注意力体重的句子表达了 Ernst Haefliger is died in,而高的则表达了he is born in。

5 Conclusion and Future Works

在这篇文章中,我们以句子的选择性注意力机制来发展CNN。我们的模型可以充分利用所有信息性的句子,并为远程监督关系提取提供错误的标签问题。在实验中,我们对关系提取任务的模型进行了评价。实验结果表明,我们的模型具有显著的、持续的优于最先进的基于特征的方法和神经网络方法。

在未来,我们将探索以下方向:

1.我们的模型通过实例级的选择性注意,将多实例学习与神经网络结合起来。它不仅可以用于远程监督关系的提取,还可以用于其他多实例学习任务。我们将在其他领域探索我们的模型,例如文本分类。

2.CNN是神经关系提取的有效神经网络之一。研究人员还提出了许多其他的神经网络模型来进行关联提取。在未来,我们将把我们的实例级选择性注意技术与这些模型进行关联提取。

LINK

Neural Relation Extraction with Selective Attention over Instances

NOTE

一改:译于18.10.16
 

猜你喜欢

转载自blog.csdn.net/imsuhxz/article/details/83086962