原文

代码

摘要

本文研究的是文档级关系抽取，即从文档中抽取出多个实体之间的关系。现有的方法主要是基于图或基于Transformer的模型，它们只考虑实体自身的信息，而忽略了关系三元组之间的全局信息。为了解决这个问题，本文提出了一种新的方法，它通过预测一个实体级关系矩阵来同时捕获局部和全局信息。这种方法类似于计算机视觉中的语义分割任务。本文的主要贡献是提出了一个文档U形网络，它由一个编码器模块和一个U形分割模块组成。编码器模块用于捕获实体的上下文信息，U形分割模块用于捕获图像风格特征图上的三元组之间的全局相互依赖性。本文在三个公开的数据集DocRED、CDR和GDA上进行了实验，结果表明，本文的方法可以达到最先进的性能。

1 Introduction

每个关系三元组可以向同一文本中的其他关系三元组提供信息。

为了捕获文档中多个三元组的相互依赖关系，本文将文档级关系抽取任务转化为一种实体级的分类问题[Jiang et al., 2019]，也叫做表格填充[Miwa and Sasaki, 2014; Gupta et al., 2016]，如图2所示。这种问题类似于语义分割（一个广泛应用的计算机视觉任务），它的目标是用卷积网络给图像的每个像素分配一个对应的类别标签。受此启发，本文提出了一种新颖的模型，名为文档U形网络（DocuNet），它将文档级关系抽取建模为语义分割问题。在这个模型中，本文将实体对之间的相关特征作为图像输入，然后预测每个实体对的关系类型作为像素级的输出。具体来说，本文设计了一个编码器模块来获取实体的上下文信息，以及一个U形分割模块来获取三元组之间的全局依赖信息。本文还提出了一种平衡的softmax方法来处理关系类别的不平衡分布。本文的主要贡献有以下几点：

首次将文档级关系抽取问题建模为语义分割问题。
提出了模型DocuNet，它能够有效地捕获文档级关系抽取的局部和全局信息。
在三个公开的数据集上进行了实验，证明了本文模型相比于现有的方法有显著的性能提升。

2 Related Work

一方面，本文受到了[Jin et al., 2020]的启发，他们是首次考虑关系之间全局交互的研究，而这方面的研究还很少见。另一方面，本文注意到卷积神经网络（CNN）在关系抽取（RE）领域已经有了很多应用，这些研究[Nguyen and Grishman, 2015; Shen and Huang, 2016]表明CNN可以有效地提取图像风格的特征图。因此，本文的工作也与[Liu et al., 2020]的研究有关，他们将不完整的话语重写视为一种语义分割任务，这激发了本文从计算机视觉的角度来探索RE问题。本文采用了U-Net [Ronneberger et al., 2015]，它由一个收缩路径和一个对称的扩展路径组成，分别用于捕获上下文信息和实现精确的定位。据本文所知，这是第一次将RE问题建模为语义分割任务。

3 Methodology

3.1 Preliminary

给定一个文档

，其中包含一组实体

，任务是提取这些实体之间的关系。一个文档中可能有多个相同的实体。为了抽取实体

和

之间的关系，本文用一个

的矩阵

表示，其中

是

和

的关系类型。本文的目标是得到矩阵

的输出，这类似于语义分割的任务。本文按照实体在文档中首次出现的顺序排列矩阵

中的实体，利用实体间的相关性估计生成特征图，并把特征图当作一张图像。注意，输出的实体级关系矩阵

和语义分割中的像素级掩码是对应的，这就把关系抽取和语义分割联系起来了。本文的方法也适用于句子级别的关系抽取。由于文档中的实体更多，所以实体级关系矩阵可以学习更多的全局信息，从而提高性能。

3.2 Encoder Module

考虑一个文档

，其中包含了一些实体提及。为了标记实体的位置，在每个提及的开始和结束处添加特殊符号

和

。使用一个预训练的语言模型作为编码器，将文档中的每个词

转换为一个向量

，得到文档的嵌入表示：

由于有些文档的长度超过了语言模型的最大输入限制（例如 512），本文使用一个滑动窗口的方法来编码整个文档。对于每个窗口，取其嵌入的平均值作为最终的表示。然后，使用

的嵌入来表示每个实体提及，这是一种简单而有效的方法，参考了 [Verga et al., 2018]。

为了得到每个实体的嵌入，使用一种平滑的最大池化操作，即 logsumexp 池化，将一个实体的所有提及的嵌入进行聚合：

其中

是第

个实体的嵌入，

是该实体在文档中出现的次数，

是该实体的第

个提及的嵌入。这种池化操作可以有效地捕捉文档中提及的信息，得到一个全局的实体表示。

为了计算文档中实体之间的关系，本文构建一个实体级的关系矩阵，其中每个元素表示两个实体的相关性。使用一个

维的特征向量

来表示源实体

和目标实体

之间的关系特征。本文提出了两种计算

的方法，一种是基于相似度的方法，另一种是基于上下文的方法。基于相似度的方法是将

和

之间的三种相似度度量拼接起来，分别是哈达玛积（element-wise product）、余弦相似度（cosine similarity）和双线性相似度（bi-linear similarity）：

其中

是一个可学习的权重矩阵。这种方法可以直接捕捉实体嵌入之间的相似程度，反映它们的关系强度。基于上下文的方法是利用实体感知的注意力机制，根据文档的嵌入和实体的重要性，计算出一个特征向量：

其中

是一个可学习的权重矩阵，

是文档的嵌入，

是 transformer 中的头数，

和

分别是第

个头的源实体和目标实体的注意力权重，

是实体感知的注意力权重。这种方法可以利用文档的上下文信息，生成更加丰富和灵活的关系特征。

3.3 U-shaped Segmentation Module

本文将实体级关系矩阵

看作是一个

通道的图像，并将文档级关系预测问题转化为在

上进行像素级的分割。其中

是数据集中所有样本的最大实体数。为了实现这一目标，本文借鉴了计算机视觉领域的经典语义分割模型 U-Net。如图 3 所示，该模型由一个 U 型的分割网络组成，包括两个下采样模块和两个上采样模块，并通过跳跃连接实现信息的融合。在下采样模块中，每个模块包含两个最大池化层和两个卷积层，同时每个模块的通道数翻倍。如图 2 所示，实体级关系矩阵中的分割区域对应于实体对之间的关系共现情况。U 型分割网络能够在接受域内实现实体对之间的信息交换，类似于一种隐式的推理过程。具体来说，CNN 和下采样模块能够扩大当前实体对嵌入

的感受野，从而为表示学习提供更多的全局信息。在上采样模块中，每个模块包含一个反卷积层和两个卷积层，同时每个模块的通道数减半，这有助于将聚合的信息分配到每个像素上。最后，通过一个编码模块和一个 U 型分割模块来融合局部和全局信息

，如下式所示：

其中

和

分别表示 U 型分割模块和实体级关系矩阵。

是一个可学习的权重矩阵，用于降低

的维度，使其与

相匹配，而

远小于

。

3.4 Classification Module

本文使用前馈神经网络，将实体对嵌入

和

以及实体级关系矩阵

映射到隐藏表示

。然后，利用双线性函数计算关系的概率。具体地，有：

其中，

是矩阵

中

的实体对表示，

和

，是模型的参数。

由于之前的工作发现 RE 的关系分布不平衡（大部分实体对的关系为 NA），本文采用了一个平衡的 softmax 方法进行训练，这受到了计算机视觉领域的圆形损失 [Sun et al., 2020] 的影响。具体地，增加了一个额外的类别 0，使得目标类别的分数都高于

，而非目标类别的分数都低于

。形式地，有：

为了简化，将阈值设为零，得到以下公式：

《Document-level Relation Extraction as Semantic Segmentation》论文阅读笔记的更多相关文章

《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
（转）Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
生成对抗网络（Generative Adversarial Networks，GAN）初探
1. 从纳什均衡(Nash equilibrium)说起我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
生成对抗网络（Generative Adversarial Networks, GAN）
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
论文笔记之：Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型仔细理解了在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人的看法和观点,可能我是机器学习小白吧,看完之 ...

随机推荐

vue中父传子props的使用
第一种传递一个数组 props:["cont"] 第二种传递一个对象 props:{ uploadOption:{ type:Object, 参数类型必须是一个对象 requi ...
Centos7把home目录下多余的空间转移到/根目录下
通过df-h发现,根目录只有32G,而home目录可用的,居然有142G.我现在想分出70G给根目录把你需要挂载的机器的逻辑卷记住(上面的图,左边是逻辑卷,右边是虚拟磁盘) /dev/mapper/ ...
窗口管理器 dwm安装
上一篇博文中,已经完成了archlinux的安装,但是进去仅仅是一个冰冷冷的交互式命令窗口.没有图像,也无法打开浏览器.离日常使用还差的很远,接下来首先需要做的就是安装桌面环境.这里我不打算使用诸如g ...
MySQL【二】---数据库查询详细教程｛查询、排序、聚合函数、分组｝
1.数据准备.基本的查询(回顾一下) 创建数据库 create database python_test charset=utf8; 查看数据库: show databases; 使用数据库: use ...
2.3 CE修改器：浮点数扫描
本关需要使用 Cheat Engine 工具对浮点数进行扫描,完成修改任务.浮点数是一种带有小数点的数值,通过"浮点数"扫描方式进行修改.本关中,健康值为单精度浮点数,弹药值为双精 ...
C# 通过VMI接口获取硬件ID
使用C#语言实现通过VMI(虚拟机监控器)接口来获取硬件ID的过程.VMI是一种用于虚拟化环境的接口,用于管理虚拟机和宿主机之间的通信和资源共享.具体实现中,需要通过添加System.Manageme ...
【调试】pstore原理和使用方法总结
什么是pstore pstore最初是用于系统发生oops或panic时,自动保存内核log buffer中的日志.不过在当前内核版本中,其已经支持了更多的功能,如保存console日志.ftrace ...
CF1850H The Third Letter
题目链接题解知识点:贪心,图论建模. 考虑对约束 a b d 建边 \(a \mathop{\to}\limits^d b\) 与 \(b \mathop{\to}\limits^{-d} a\) ...
Linux中查看dmesg中 ata1对应的盘符，以及SATA/NVME SSD的rescan/delete操作方法
1.查看dmesg 中ata1 对应的盘符: Step1; lsscsi -s 查看盘符(bdf) 对应的host Id: Step2: ll /sys/class/scsi_host 可以找到不 ...
CentOS在无网络环境下，用离线源yum安装软件
先说大致步骤: 1.前提假设:当前无网络的目标服务器是A,我们需要先准备一台服务器B: 2.在B上面用yum先把软件安装完成. 3.然后用createrepo将B中的包拷贝出来,并传到A上(用U盘或者 ...

《Document-level Relation Extraction as Semantic Segmentation》论文阅读笔记

原文

代码

摘要