《SAIS Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction》论文阅读笔记
代码
原文地址
预备知识:
1.什么是标记索引(token indices)?
2.什么是交替段落标记索引(alternating segment token indices)?
3.什么是Spacy?
摘要
1 Introduction

2 Background
2.1 Problem Formulation
,它由一组句子
和一组实体
组成。每个实体
都有一个属于
的类型,并且在
中至少出现了一次,用
表示它的所有提及。对于任意一对头实体和尾实体
,DocRE的任务是根据
和
的某些提及在
中是否表达了某种属于
的关系
,来判断它们之间是否存在这种关系。这里,
和
分别是预定义的实体类型集合和关系类型集合。另外,对于
和它们之间的任意一种有效关系
,证据检索(ER)的任务是找出
中的一个子集
,它包含了表达
的足够信息。2.2 Related Work
3 Supervising Intermediate Steps
3.1 Document Encoding
,在每个句子
的首尾分别添加一个分类器标记“[CLS]”和一个分隔符标记“[SEP]”。还用一对实体标记“*”标注出每个提及
的位置。接着,将文档,以及每个句子的交替段落标记索引(Liu和Lapata, 2019),输入到一个PLM中,得到:
是词嵌入,
是跨词注意力。
是PLM的最后一个Transformer层中所有注意力头的平均值。
是
中的词数,
是PLM的嵌入维度。把每个提及或句子前的“*”或“[CLS]”对应的嵌入作为该提及或句子的嵌入。3.2 Coreference Resolution (CR)
,通过将它们的嵌入
和
输入一个分组双线性层来计算它们是否指代同一个实体的概率。该层将嵌入分成
个等大小的组,即
,对
同理,并在每个组内应用双线性变换,参数为
:
,
是sigmoid函数。
表示
和
指代同一个实体,否则为0。类别权重
与
的频率成反比,
是一个超参数。3.3 Entity Typing (ET)
的各个提及
的嵌入:
可以出现在实体对的头部或尾部,本文分别用两个线性层来生成头部实体嵌入
和尾部实体嵌入
:


。
出现在实体对的哪个位置,它的头部和尾部嵌入都应该包含
的类型信息。因此,通过将
(
)输入一个线性层来预测实体
的类型概率:

,
是softmax函数。
表示实体
属于类型
,否则为0。3.4 Pooled Evidence Retrieval (PER)
中对于实体对
有用的证据句子集合
,而不考虑每个句子
所表达的具体关系。在这种情况下,给定一个实体对
,首先根据公式1中的交叉词注意力机制来计算一个独特的上下文嵌入
:
表示元素级的乘法。
是
对文档中所有词的注意力(即,
的提及级注意力的平均值)。
同理。然后通过将实体对
的上下文嵌入
和句子
的嵌入
送入一个分组双线性层来计算句子
是否属于证据句子集合
的概率:
和
。
,类别权重
与
的频率成反比,
是一个超参数。3.5 Fine-grained Evidence Retrieval (FER)
,首先将
和
的关系嵌入
通过一个线性层融合成一个三元组嵌入
:
表示连接,而
是从 PLM 的嵌入矩阵中获取的。
是否属于三元组的细粒度证据集合
的概率:
和
。
,并使用标准的二元交叉熵损失函数:
3.6 Relation Extraction (RE)
的相关上下文
进行编码,并保留它们的实体类型信息
和
。然后,通过两个独立的线性层从
中提取出头实体和尾实体所需的上下文:




和尾实体
之间是否存在关系
的对数几率:


。
,并采用了一个自适应阈值损失函数:
的对数几率,降低无效关系
的对数几率,两者都相对于
。
,并通过最小化多任务学习目标函数来整合所有的任务:
。
是用来平衡不同任务权重的超参数。
进行推理时,通过比较其对数几率和阈值对数几率 (即
) 来判断一个三元组
是否有效 (即实体对
之间是否有关系
)。对于每个预测的三元组
,通过比较
和
来判断一个句子
是否属于证据集
,其中
是一个阈值。4 Augmenting Intermediate Steps
4.1 When to Augment Intermediate Steps

唯一的。但是,所有可能的三元组的总数太多了(在 DocRED 的开发集中约有 4000 万个),如果要用每个三元组的证据来增强推理结果,计算量太大,不现实。
来衡量模型对
的置信度,然后把置信度最低的
的三元组放入不确定集
。对于
中的三元组,放弃原来的关系预测,而是用基于证据的数据增强来提高性能(详见第 4.2 节)。
(注意
不是一个超参数),先按照绝对置信度
对开发集中的所有三元组进行排序。当
增加时,不在
中的三元组的风险(即不准确率)会降低,反之亦然。
达到最小的
。如图 2 所示,在 DocRED 的开发集中找到
。在实践中,还可以限制每个实体对的拒绝三元组数不超过 10,这样就能把
的大小缩小到 DocRED 开发集中所有三元组的 1.5%。4.2 How to Augment Intermediate Steps
,它表示实体
和
之间存在关系
。为了验证这个三元组是否有效,需要根据第 3.5 节的方法,计算给定的句子
是否属于关系
的证据集合
,即计算
的值。基于这个概率,本文提出了两种基于证据的数据增强方法,分别是:
):从文本中选取一些满足
的句子,将它们拼接成一个伪文档,然后输入到原始的模型中,得到三元组的置信度
。
):根据
的值生成一个注意力掩码
,用它来调整上下文嵌入
,其中
是文本的隐藏状态,
和
是实体的注意力权重。保持模型的其他部分不变,得到三元组的置信度
。
对每个关系
的
,
和原始置信度
进行加权平均,得到:
的二元交叉熵损失来训练混合参数:
表示三元组
是有效的,否则为 0。在测试阶段,对于每个
,只有当它的混合置信度
大于 0 时,才认为它是有效的三元组。
。这些步骤只在
的训练之后执行,因此对计算成本的影响可以忽略不计。《SAIS Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction》论文阅读笔记的更多相关文章
- 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
- (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
- 生成对抗网络(Generative Adversarial Networks,GAN)初探
1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
- 生成对抗网络(Generative Adversarial Networks, GAN)
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
- StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
- 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
- 《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型 仔细理解了 在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
- Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
- SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
- Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...
随机推荐
- 代码也能“杀”虫:此虫,真虫非Bug也
摘要:看这群大学生如何保护粮食,让害虫.霉变无处遁形. 国以民为本,民以食为天,对有着14亿人口的中国来说,粮食安全,一直都是关系国计民生的头等大事. 2010年以来,我国人均粮食占有量持续高于世界平 ...
- 十分钟读懂火山引擎 DataLeap 数据治理实践
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 日前,火山引擎数智平台 VeDI 直播活动「超话数据」在线举办,来自火山引擎 DataLeap 数据产品专家从数据 ...
- Solon 开发进阶,二、体外扩展机制
Solon 开发进阶 一.插件扩展机制 二.体外扩展机制 三.常用配置说明 四.启动参数说明 五.全局异常订阅 Solon 的一个特色:体外扩展机制,用于解决 fatjar 模式部署时的扩展需求.比如 ...
- Linux 升级安装 Python 3
百度飞桨 PaddlePaddle 2.4.0 => Python 3.7.4 PaddlePaddle 2.4.1+ => Python 3.9.0 下载 # 安装依赖 [root@lo ...
- 脑机接口 | 面向步态&神经电生理研究的非人灵长类模型与系统
近期,海南大学生物医学工程学院脑机芯片神经工程团队在Frontiers in Neuroscience期刊上发表了题为<面向步态&神经电生理研究的非人灵长类模型与系统>的学术论文. ...
- cookie与session简介 django操作cookie django操作session
目录 cookie与session简介 早期cookies 随机字符串解决cookies安全问题 禁止浏览器保存cookies django操作cookie set_cookie set_signed ...
- 在 HTML 页面中使用 React
该方案使用场景:在html页面中使用react,主js文件index.js和其它非react功能使用js模块化的方式开发,适合轻量级中小型应用 index.html代码: 引入react.react- ...
- FastDFS 海量小文件存储解决之道
作者:vivo互联网服务器团队-Zhou Changqing 一.FastDFS原理介绍 FastDFS是一个C语言实现的开源轻量级分布式文件系统 . 支持 Linux.FreeBSD.AID 等Un ...
- 微信小程序图片展示类型
- arguments使用
arguments在函数中可以使用,表示包含了当前函数调用时传入的实参. arguments通过索引值获取实参,索引值从开始,按顺序依次表示函数调用时传过来的实参. 1 // arguments的使用 ...