原文

代码

摘要

为了解决传统的关系抽取（RE）方法只能识别两个实体之间的关系，而忽略了同一上下文中多个关系之间的相互依赖性，即关系的关系（relation of relations，RoR）的问题，本文提出了一种新的RE范式，它将所有关系的预测作为一个整体进行优化。本文设计了一种数据驱动的方法，利用图神经网络和关系矩阵Transformer自动学习RoR，无需人工规则。在两个公开的数据集ACE05和SemEval 2018任务7.2上，本文的模型分别比最先进的方法提高了+1.12%和+2.55%，达到了显著的改进效果。

1 Introduction

概述：

图1中的句子涉及到七个实体。在广泛使用的ACE 05数据集（Walker et al., 2006）中，有99.76%的数据实例涉及到两个以上的实体，而且每个文本中平均存在9.21个关系。

传统方法：

采用了一种简化的设置，即只对每两个实体之间的关系进行分类（Zeng et al., 2014; Luan et al., 2018; Li and Ji, 2014; Gormley et al., 2015; Miwa and Bansal, 2016）。这意味着对于图1中有7个实体的句子，大多数以前的方法需要执行49个独立的关系分类任务（如果考虑自反关系）。由于现有的方法需要对输入的实体进行显式标注，因此无法减少这个数量的分类任务。例如，要预测实体对（obstetricians, California）之间的关系，输入需要转换为“...<e1> obstetricians <\e1> in <e2> California <\e2> will pay $60,000 in Los Angeles ...”。

传统方法的问题：

它不仅效率低下，而且忽略了同一上下文中多个关系之间的相互依赖性。例如，在图1中的49个关系中，如果已经知道了关系（Miami, is part of, south Florida），其中“is part of”是定义在两个对象上的关系，那么Miami就不太可能与其他任何人际关系有关，比如“is the father of...”。

RoR：

在ACE 05数据集中，每个文本中平均存在9.21个关系，这意味着每个关系都可能对同一文本中的其他关系有影响。将同一文本中多个关系之间的频繁出现的相互依赖性称为“关系的关系”（RoR）。

为了捕捉RoR，本文提出了一种新的关系抽取（RE）范式，它将同一文本中所有关系的预测作为一个整体来处理。本文的工作与（Wang et al., 2019）不同，后者仍然将每个实体对的关系视为独立的分类任务，但以牺牲准确性为代价节省了计算能力，通过一次编码所有实体。相反，本文新提出的范式不是关于计算成本和准确性之间的权衡，而是通过捕捉RoR来提高性能。

2 New formulation of RE

传统的任务定义：

把每个文本序列和其中的两个实体之间的关系作为一个独立的分类问题来处理的。即：

给定一个文本序列

，以及

中的两个实体提及

和

，还有一个预定义的关系类型集合

，任务是预测

和

之间属于哪种关系类型。这样的 RE 问题可以归结为一个经典的句子分类任务。

本文的任务定义：

给定一个文本序列

，以及

中的所有实体提及

，模型需要预测

中任意两个实体

之间的关系

，其中

。本文使用一个矩阵

来表示

中所有可能的关系，如图 2 所示。

3 Statistical analysis of RoR

本文的案例研究基于 ACE05 数据集 (Walker et al., 2006)。下面将介绍两种 RoR 的形式：

biRoR，只考虑两个关系之间的相互作用。
multiRoR，考虑三个或更多关系之间的复杂关联。

3.1 Data overview

ACE05 (Walker et al., 2006) 是最广泛使用的关系抽取数据集。它的文本来自多种来源，包括新闻节目、报纸、新闻报道和音频转录。它有 6 种关系类型，如表 1 所示。对于这些关系，有 7 种有效的实体类型：设施 (FAC)、地缘政治实体 (GPE)、位置 (LOC)、组织 (ORG)、人 (PER)、车辆 (VEH)、武器 (WEA)。

3.2 BiRoR: Interdependency of two relations

3.2.1 Entity type-constrained biRoR（受实体类型约束）

给定两个实体和它们之间的关系类型

，可以判断

是否不可能与另一种关系类型

同时出现。为了说明这种方法，用 ACE05 数据集中的七种实体类型举例。表 1 显示了不同的关系类型允许的实体类型参数。根据这些信息，可以得出 12 条不兼容的规则。比如，同一个实体不能同时是 Per-Soc 的 arg0 和 Part-Whole 的 arg0，因为 Per-Soc 的 arg0 必须是人 (PER)，而 Part-Whole 不能包含 PER。所有的不兼容规则都列在附录 A.1 中。

3.2.2 Semantic-constrained biRoR（受语义约束）

一个关系的含义可以决定它是否能够与另一个关系共存或者必须与另一个关系互斥。例如，Art 关系可以表示一个人（arg0）拥有一个设施（arg1），其中 arg1 必须是一个设施。如果已经存在这样的关系，那么同一个设施就不能再与一个城市构成 Part-Whole 关系，因为从语义上讲，城市（比如波士顿）不可能是一个设施的一部分。这种不兼容性不是由实体类型强制规定的，而是由关系的语义所暗示的。

语义也可以暗示一个关系是否应该具有对称性。例如，Per-Soc 关系总是对称的，因为家庭和朋友是可以互换的关系，而 Org-Aff 关系总是非对称的（Walker et al., 2005）。因此，如果一个关系

，那么

也等于

。而如果

，那么

。

3.2.3 Empirical biRoR

本文对图 3 中的每对关系进行了相关性分析。从图中可以看出，3.2.1 节提出的不兼容性规则在红色的负相关区域得到了验证，3.2.2 节描述的 Per-Soc 和 Phys 的对称性在深蓝色的高相关区域得到了体现。此外，图中还显示了一些其他的相关性，例如 Part-Whole 和 Phys 关系经常同时出现。

3.3 MultiRoR: Correlation of 3+ relations

3.3.1 Entity type-constrained multiRoR

biRoR 是一种只涉及两个关系的规则，但还有一些更复杂的规则，它们可以作用于多个关系，称之为 multiRoR。multiRoR 是一种基于实体类型的规则，它把 3.2.1 节中介绍的两个关系的不兼容性推广到 3 个或更多的关系。举个例子，如果一个实体同时是 Org-Aff 和 Phys 关系的 arg1，那么根据实体类型的约束，它就不能再是 Art 关系的 arg1（因为它必须是 GPE）。图 4 显示了，当一个实体的关系数量增加时，所有可能的多个关系组合中，无效的组合所占的比例也会迅速上升，当有 7 个关系时，甚至高达 83%。

3.3.2 Numerically correlated multiRoR

从数据集中的所有关系矩阵 R 中，可以发现不同类别的关系之间存在数值相关性。这种相关性不是针对两个具体的关系，而是针对两类关系的总数，因此属于 multiRoR 的范畴（每一类关系都可能有多次出现）。图 5 中的相关性图显示了，Per-Soc 和 Gen-Aff 两类关系的总数呈现出明显的正相关，而 Art 和 Org-Aff 两类关系的总数则呈现出负相关。

4 Method

手工制定各种类型的RoR规则是一种简单的方法，但是它不适用于具有不同特征的数据集，也无法识别一些难以人工发现的RoR。因此，本文的目标是设计一个不依赖于手工规则的RoR学习模型。训练策略如图6所示。接下来，将详细介绍三个关键的模型组件：

实体和关系的初始嵌入。
基于GNN的biRoR学习器。
学习multiRoR的矩阵变换器。

4.1 Initialization of entities and relations

在准备阶段，首先为每个实体生成嵌入。利用预训练的BERT模型（Devlin et al., 2019）处理文本，并通过对BERT最后一层的每个词的隐藏状态取平均，得到每个实体的表示。本文的框架可以灵活地采用其他获取预训练嵌入的方法，例如（Yang et al., 2019; Liu et al., 2019）。接着，将两个相关实体的嵌入拼接起来，并通过一个前馈层，得到每个关系的初始嵌入。

4.2 BiRoR Learner

本文的目标是利用图神经网络（GNN）来学习文本序列中不同关系之间的相互作用，实现双向关系推理（biRoR）。给定一个包含

个实体的文本序列

，将其表示为一个图

，其中

是由所有的实体和关系组成的节点集合，

是由每个关系节点和其对应的两个实体节点组成的边集合。

采用图神经网络来捕捉节点之间的信息传递，特别是在关系节点之间。图神经网络的第一层以第4.1节中得到的节点嵌入（包括实体嵌入和关系嵌入）为输入。在第

层，图神经网络通过从邻居节点收集隐藏状态来更新当前层的节点表示，进而得到第

层的节点表示。具体地，有

其中

表示第

层中第

个节点的隐藏状态，

表示一个前馈网络，

表示一个权重矩阵，

表示节点

的邻居节点集合，

表示节点

对节点

的注意力权重。这个注意力权重

由下式计算：

其中

和

分别表示计算注意力时的键和查询权重矩阵。

4.3 MultiRoR Learner

图神经网络（GNN）具有强大的建模节点间交互的能力，这与双向关系推理（biRoR）相对应，但它在捕捉更复杂的多重关系推理（multiRoR）方面并不那么强大。例如，如果一个实体同时具有Org-Aff和Phys两种关系，那么它就不能具有Art关系。但是GNN结构并不一定能够捕捉涉及嵌套条件的这种复杂的multiRoR。因此，需要另一个模块来对关系矩阵

进行建模，它考虑了所有关系之间的动态，以便捕捉multiRoR。本文提出了一个简单而有效的模块，即关系矩阵Transformer。由于关系矩阵

中的每个关系

都需要关注所有其他关系，本文定制了基于Transformer的编码器架构来构建关系矩阵Transformer，它允许所有元素之间进行广泛的相互注意力（Vaswani et al., 2017）。将Transformer中的位置编码定制为两部分：行编码和列编码，每一部分都是一个从位置索引到

维向量空间的可学习映射。关系矩阵Transformer将位置编码，即行和列嵌入的和，加到4.1节中得到的关系的初始表示上。接着，关系矩阵Transformer学习所有关系之间的动态，并通过一个变换后的矩阵

输出所有关系的新特征，从而捕捉multiRoR。最后，将GNN和关系矩阵Transformer学习到的关系嵌入相加，然后将它们输入到最终的分类层，以获得每个关系的类型。

《Relation of the Relations A New Paradigm of the Relation Extraction Problem》论文阅读笔记的更多相关文章

《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
（转）Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
生成对抗网络（Generative Adversarial Networks，GAN）初探
1. 从纳什均衡(Nash equilibrium)说起我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
生成对抗网络（Generative Adversarial Networks, GAN）
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
论文笔记之：Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型仔细理解了在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人的看法和观点,可能我是机器学习小白吧,看完之 ...

随机推荐

在bat中切换盘符
在bat代码中如何在不同的盘符中切换?直接输入盘符的名字,前面不要加cd,示例 cd %~dp0 d: cd D:\Python37 e: cd E:\Code\KSFramework c: cd C ...
从零开始配置vim(23)——lsp基础配置
上一章,我们初步认识了lsp,并且对 nvim-treesitter插件进行了配置,为编辑器提供了代码着色.自动格式化以及增量选中功能.算是初步体验了 lsp的相关功能.从这篇开始我们通过lsp的功能 ...
IServiceBehavior, IOperationBehavior,IParameterInspector
1 public class MyOperationBehavior:Attribute, IOperationBehavior 2 { 3 public void AddBindingParamet ...
【四】-强化学习入门简介---PaddlePaddlle强化学习及PARL框架
相关文章: [一]飞桨paddle[GPU.CPU]安装以及环境配置+python入门教学 [二]-Parl基础命令 [三]-Notebook.&pdb.ipdb 调试 [四]-强化学习入门简 ...
word论文常用格式设定技巧【公式对齐、制表符公式编号等】
1.公式对齐改动前: 改动后结果: 2.段落行距要求对于文字可以设定为1.5倍行距对于公式 5号字体对应1.5倍行距大概在23.4磅,因此可以根据需求适当调整大小. 3.公式标号---使用制表符 ...
LyScript 从文本中读写ShellCode
LyScript 插件通过配合内存读写,可实现对特定位置的ShellCode代码的导出,或者将一段存储在文本中的ShellCode代码插入到程序堆中,此功能可用于快速将自己编写的ShellCode注入 ...
Linux文件IO之一 [补档-2023-07-21]
Linux文件IO 8-1C标准库IO函数的工作流程使用fopen函数打开一个文件,之后会返回一个FILE* fp指针,fp指针指向一个结构体,这个结构体是c 标准io库中的一个结构体,这个结构 ...
Pdfium.Net.Free 一个免费的Pdfium的 .net包装器--添加文本
项目地址: Pdfium.Net:https://github.com/1000374/Pdfium.Net PdfiumViewer:https://github.com/1000374/Pdfiu ...
CF145E Lucky Queries 题解
题目链接:CF 或者洛谷前置知识点:序列操作本文关键词约定俗称:因为频繁敲最长不下降子序列 $LNCS$ 和最长不上升子序列 $LNIS$ 太麻烦了,下文将 $000011111$ ...
springboot log 没落盘
在配置文件中增加了下面的配置并不起作用. logging.file=/xx/xx.log 是因为在 springboot 2.2 版本之后上面的采纳数已经被废弃,需要用下面新的参数: logging. ...

《Relation of the Relations A New Paradigm of the Relation Extraction Problem》论文阅读笔记

原文

代码

摘要