《SAIS Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction》论文阅读笔记
代码
原文地址
预备知识:
1.什么是标记索引(token indices)?
2.什么是交替段落标记索引(alternating segment token indices)?
3.什么是Spacy?
摘要
1 Introduction

2 Background
2.1 Problem Formulation
,它由一组句子
和一组实体
组成。每个实体
都有一个属于
的类型,并且在
中至少出现了一次,用
表示它的所有提及。对于任意一对头实体和尾实体
,DocRE的任务是根据
和
的某些提及在
中是否表达了某种属于
的关系
,来判断它们之间是否存在这种关系。这里,
和
分别是预定义的实体类型集合和关系类型集合。另外,对于
和它们之间的任意一种有效关系
,证据检索(ER)的任务是找出
中的一个子集
,它包含了表达
的足够信息。2.2 Related Work
3 Supervising Intermediate Steps
3.1 Document Encoding
,在每个句子
的首尾分别添加一个分类器标记“[CLS]”和一个分隔符标记“[SEP]”。还用一对实体标记“*”标注出每个提及
的位置。接着,将文档,以及每个句子的交替段落标记索引(Liu和Lapata, 2019),输入到一个PLM中,得到:
是词嵌入,
是跨词注意力。
是PLM的最后一个Transformer层中所有注意力头的平均值。
是
中的词数,
是PLM的嵌入维度。把每个提及或句子前的“*”或“[CLS]”对应的嵌入作为该提及或句子的嵌入。3.2 Coreference Resolution (CR)
,通过将它们的嵌入
和
输入一个分组双线性层来计算它们是否指代同一个实体的概率。该层将嵌入分成
个等大小的组,即
,对
同理,并在每个组内应用双线性变换,参数为
:
,
是sigmoid函数。
表示
和
指代同一个实体,否则为0。类别权重
与
的频率成反比,
是一个超参数。3.3 Entity Typing (ET)
的各个提及
的嵌入:
可以出现在实体对的头部或尾部,本文分别用两个线性层来生成头部实体嵌入
和尾部实体嵌入
:


。
出现在实体对的哪个位置,它的头部和尾部嵌入都应该包含
的类型信息。因此,通过将
(
)输入一个线性层来预测实体
的类型概率:

,
是softmax函数。
表示实体
属于类型
,否则为0。3.4 Pooled Evidence Retrieval (PER)
中对于实体对
有用的证据句子集合
,而不考虑每个句子
所表达的具体关系。在这种情况下,给定一个实体对
,首先根据公式1中的交叉词注意力机制来计算一个独特的上下文嵌入
:
表示元素级的乘法。
是
对文档中所有词的注意力(即,
的提及级注意力的平均值)。
同理。然后通过将实体对
的上下文嵌入
和句子
的嵌入
送入一个分组双线性层来计算句子
是否属于证据句子集合
的概率:
和
。
,类别权重
与
的频率成反比,
是一个超参数。3.5 Fine-grained Evidence Retrieval (FER)
,首先将
和
的关系嵌入
通过一个线性层融合成一个三元组嵌入
:
表示连接,而
是从 PLM 的嵌入矩阵中获取的。
是否属于三元组的细粒度证据集合
的概率:
和
。
,并使用标准的二元交叉熵损失函数:
3.6 Relation Extraction (RE)
的相关上下文
进行编码,并保留它们的实体类型信息
和
。然后,通过两个独立的线性层从
中提取出头实体和尾实体所需的上下文:




和尾实体
之间是否存在关系
的对数几率:


。
,并采用了一个自适应阈值损失函数:
的对数几率,降低无效关系
的对数几率,两者都相对于
。
,并通过最小化多任务学习目标函数来整合所有的任务:
。
是用来平衡不同任务权重的超参数。
进行推理时,通过比较其对数几率和阈值对数几率 (即
) 来判断一个三元组
是否有效 (即实体对
之间是否有关系
)。对于每个预测的三元组
,通过比较
和
来判断一个句子
是否属于证据集
,其中
是一个阈值。4 Augmenting Intermediate Steps
4.1 When to Augment Intermediate Steps

唯一的。但是,所有可能的三元组的总数太多了(在 DocRED 的开发集中约有 4000 万个),如果要用每个三元组的证据来增强推理结果,计算量太大,不现实。
来衡量模型对
的置信度,然后把置信度最低的
的三元组放入不确定集
。对于
中的三元组,放弃原来的关系预测,而是用基于证据的数据增强来提高性能(详见第 4.2 节)。
(注意
不是一个超参数),先按照绝对置信度
对开发集中的所有三元组进行排序。当
增加时,不在
中的三元组的风险(即不准确率)会降低,反之亦然。
达到最小的
。如图 2 所示,在 DocRED 的开发集中找到
。在实践中,还可以限制每个实体对的拒绝三元组数不超过 10,这样就能把
的大小缩小到 DocRED 开发集中所有三元组的 1.5%。4.2 How to Augment Intermediate Steps
,它表示实体
和
之间存在关系
。为了验证这个三元组是否有效,需要根据第 3.5 节的方法,计算给定的句子
是否属于关系
的证据集合
,即计算
的值。基于这个概率,本文提出了两种基于证据的数据增强方法,分别是:
):从文本中选取一些满足
的句子,将它们拼接成一个伪文档,然后输入到原始的模型中,得到三元组的置信度
。
):根据
的值生成一个注意力掩码
,用它来调整上下文嵌入
,其中
是文本的隐藏状态,
和
是实体的注意力权重。保持模型的其他部分不变,得到三元组的置信度
。
对每个关系
的
,
和原始置信度
进行加权平均,得到:
的二元交叉熵损失来训练混合参数:
表示三元组
是有效的,否则为 0。在测试阶段,对于每个
,只有当它的混合置信度
大于 0 时,才认为它是有效的三元组。
。这些步骤只在
的训练之后执行,因此对计算成本的影响可以忽略不计。《SAIS Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction》论文阅读笔记的更多相关文章
- 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
- (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
- 生成对抗网络(Generative Adversarial Networks,GAN)初探
1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
- 生成对抗网络(Generative Adversarial Networks, GAN)
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
- StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
- 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
- 《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型 仔细理解了 在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
- Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
- SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
- Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...
随机推荐
- 当自动驾驶遇到5G,会擦出怎样的火花?这篇文章说明白了
作者:华为云EI专家厉天一 摘要:无人驾驶是通过自动驾驶系统,部分或完全的代替人类驾驶员,安全地驾驶汽车.汽车自动驾驶系统是一个涵盖了多个功能模块和多种技术的复杂软硬件结合的系统.本文将基于5G技术来 ...
- 云图说|AppCube零代码,开启无码新生活
阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要: 应用魔方 App ...
- 火山引擎DataLeap的Catalog系统搜索实践 (二):整体架构
整体架构 火山引擎DataLeap的Catalog搜索系统使用了开源的搜索引擎Elasticsearch进行基础的文档检索(Recall阶段),因此各种资产元数据会被存放到Elasticsearch中 ...
- PPT 求职应聘:如何制作人物介绍
PPT 求职应聘:如何制作人物介绍 单人展示
- auth认证模块 auth_user表扩展
目录 auth认证模块前戏 django后台管理功能 创建超级管理员 auth认证相关模块及操作 用户注册 用户登录 网站首页效果 校验用户登录的装饰器 用户修改密码 用户注销登录 auth_user ...
- 领域驱动设计(DDD)实践之路(四):领域驱动在微服务设计中的应用
这是"领域驱动设计实践之路"系列的第四篇文章,从单体架构的弊端引入微服务,结合领域驱动的概念介绍了如何做微服务划分.设计领域模型并展示了整体的微服务化的系统架构设计.结合分层架构. ...
- 在Winform系统开发中,对表格列表中的内容进行分组展示
在我们开发Winform界面的时候,有时候会遇到需要对一些字段进行一些汇总的管理,如果在列表中能够对表格列表中的内容进行分组展示,将比较符合我们的预期,本篇随笔介绍在Winform开发中如何利用Dev ...
- hybird介绍
什么是hybird? hybrid即"混合",即前端和客户端的混合开发,需要前端开发人员和客户端开发人员配合完成. hybrid存在价值 可以快速迭代更新(无需app审核,思考为何 ...
- SV 自定义数据类型
概述 自定义类型 枚举类型 定义枚举值 自定义枚举类型 枚举类型之间进行赋值是可以的 枚举类型可以赋值给整型,整型不能直接赋值给枚举类型 枚举类型 + 1 ==> 会进行隐式的转换,枚举类型转换 ...
- SpringMVC04——数据处理及跳转
结果跳转 1.ModelAndView 设置ModelAndView对象,根据view的名称,和试图解析器跳到指定的页面. 页面:{视图解析器前缀} + viewName + {视图解析器后缀} &l ...