《SAIS Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction》论文阅读笔记
代码
原文地址
预备知识:
1.什么是标记索引(token indices)?
2.什么是交替段落标记索引(alternating segment token indices)?
3.什么是Spacy?
摘要
1 Introduction

2 Background
2.1 Problem Formulation
,它由一组句子
和一组实体
组成。每个实体
都有一个属于
的类型,并且在
中至少出现了一次,用
表示它的所有提及。对于任意一对头实体和尾实体
,DocRE的任务是根据
和
的某些提及在
中是否表达了某种属于
的关系
,来判断它们之间是否存在这种关系。这里,
和
分别是预定义的实体类型集合和关系类型集合。另外,对于
和它们之间的任意一种有效关系
,证据检索(ER)的任务是找出
中的一个子集
,它包含了表达
的足够信息。2.2 Related Work
3 Supervising Intermediate Steps
3.1 Document Encoding
,在每个句子
的首尾分别添加一个分类器标记“[CLS]”和一个分隔符标记“[SEP]”。还用一对实体标记“*”标注出每个提及
的位置。接着,将文档,以及每个句子的交替段落标记索引(Liu和Lapata, 2019),输入到一个PLM中,得到:
是词嵌入,
是跨词注意力。
是PLM的最后一个Transformer层中所有注意力头的平均值。
是
中的词数,
是PLM的嵌入维度。把每个提及或句子前的“*”或“[CLS]”对应的嵌入作为该提及或句子的嵌入。3.2 Coreference Resolution (CR)
,通过将它们的嵌入
和
输入一个分组双线性层来计算它们是否指代同一个实体的概率。该层将嵌入分成
个等大小的组,即
,对
同理,并在每个组内应用双线性变换,参数为
:
,
是sigmoid函数。
表示
和
指代同一个实体,否则为0。类别权重
与
的频率成反比,
是一个超参数。3.3 Entity Typing (ET)
的各个提及
的嵌入:
可以出现在实体对的头部或尾部,本文分别用两个线性层来生成头部实体嵌入
和尾部实体嵌入
:


。
出现在实体对的哪个位置,它的头部和尾部嵌入都应该包含
的类型信息。因此,通过将
(
)输入一个线性层来预测实体
的类型概率:

,
是softmax函数。
表示实体
属于类型
,否则为0。3.4 Pooled Evidence Retrieval (PER)
中对于实体对
有用的证据句子集合
,而不考虑每个句子
所表达的具体关系。在这种情况下,给定一个实体对
,首先根据公式1中的交叉词注意力机制来计算一个独特的上下文嵌入
:
表示元素级的乘法。
是
对文档中所有词的注意力(即,
的提及级注意力的平均值)。
同理。然后通过将实体对
的上下文嵌入
和句子
的嵌入
送入一个分组双线性层来计算句子
是否属于证据句子集合
的概率:
和
。
,类别权重
与
的频率成反比,
是一个超参数。3.5 Fine-grained Evidence Retrieval (FER)
,首先将
和
的关系嵌入
通过一个线性层融合成一个三元组嵌入
:
表示连接,而
是从 PLM 的嵌入矩阵中获取的。
是否属于三元组的细粒度证据集合
的概率:
和
。
,并使用标准的二元交叉熵损失函数:
3.6 Relation Extraction (RE)
的相关上下文
进行编码,并保留它们的实体类型信息
和
。然后,通过两个独立的线性层从
中提取出头实体和尾实体所需的上下文:




和尾实体
之间是否存在关系
的对数几率:


。
,并采用了一个自适应阈值损失函数:
的对数几率,降低无效关系
的对数几率,两者都相对于
。
,并通过最小化多任务学习目标函数来整合所有的任务:
。
是用来平衡不同任务权重的超参数。
进行推理时,通过比较其对数几率和阈值对数几率 (即
) 来判断一个三元组
是否有效 (即实体对
之间是否有关系
)。对于每个预测的三元组
,通过比较
和
来判断一个句子
是否属于证据集
,其中
是一个阈值。4 Augmenting Intermediate Steps
4.1 When to Augment Intermediate Steps

唯一的。但是,所有可能的三元组的总数太多了(在 DocRED 的开发集中约有 4000 万个),如果要用每个三元组的证据来增强推理结果,计算量太大,不现实。
来衡量模型对
的置信度,然后把置信度最低的
的三元组放入不确定集
。对于
中的三元组,放弃原来的关系预测,而是用基于证据的数据增强来提高性能(详见第 4.2 节)。
(注意
不是一个超参数),先按照绝对置信度
对开发集中的所有三元组进行排序。当
增加时,不在
中的三元组的风险(即不准确率)会降低,反之亦然。
达到最小的
。如图 2 所示,在 DocRED 的开发集中找到
。在实践中,还可以限制每个实体对的拒绝三元组数不超过 10,这样就能把
的大小缩小到 DocRED 开发集中所有三元组的 1.5%。4.2 How to Augment Intermediate Steps
,它表示实体
和
之间存在关系
。为了验证这个三元组是否有效,需要根据第 3.5 节的方法,计算给定的句子
是否属于关系
的证据集合
,即计算
的值。基于这个概率,本文提出了两种基于证据的数据增强方法,分别是:
):从文本中选取一些满足
的句子,将它们拼接成一个伪文档,然后输入到原始的模型中,得到三元组的置信度
。
):根据
的值生成一个注意力掩码
,用它来调整上下文嵌入
,其中
是文本的隐藏状态,
和
是实体的注意力权重。保持模型的其他部分不变,得到三元组的置信度
。
对每个关系
的
,
和原始置信度
进行加权平均,得到:
的二元交叉熵损失来训练混合参数:
表示三元组
是有效的,否则为 0。在测试阶段,对于每个
,只有当它的混合置信度
大于 0 时,才认为它是有效的三元组。
。这些步骤只在
的训练之后执行,因此对计算成本的影响可以忽略不计。《SAIS Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction》论文阅读笔记的更多相关文章
- 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
- (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
- 生成对抗网络(Generative Adversarial Networks,GAN)初探
1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
- 生成对抗网络(Generative Adversarial Networks, GAN)
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
- StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
- 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
- 《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型 仔细理解了 在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
- Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
- SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
- Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...
随机推荐
- 30亿参数,华为云发布全球最大预训练模型,开启工业化AI开发新模式
摘要: 4月25日,华为云发布盘古系列超大规模预训练模型,包括30亿参数的全球最大视觉(CV)预训练模型,以及与循环智能.鹏城实验室联合开发的千亿参数.40TB训练数据的全球最大中文语言(NLP)预训 ...
- 从源码角度详解Java的Callable接口
摘要:本文从源码角度深入解析Callable接口. 本文分享自华为云社区<深入解析Callable接口>,作者: 冰 河 . 本文纯干货,从源码角度深入解析Callable接口,希望大家踏 ...
- 十大 CI/CD 安全风险(一)
CI/CD 环境.流程和系统是现代软件组织的核心.他们将代码从开发工程师的工作站传递到生产环境.结合 DevOps 和微服务架构的兴起,CI/CD 系统和流程重塑了工程生态系统: 技术堆栈更加多样化, ...
- 火山引擎 DataTester:一个 A/B 测试,将一款游戏的核心收益提升了 8%
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 随着社会节奏及生活方式的改变,休闲游戏在移动游戏市场的占比逐渐升高,据伽马数据发布的<2022 年休闲游戏发 ...
- 锁定/解锁账户BAPI
一.锁定/解锁账户 锁定账户后,该账户不能在SAP系统登录,但是已经登录的用户,仍然可以继续使用 解锁账户后,该账户就可以正常登录使用 "-------------------------- ...
- vue 调试工具vue-devtools 安装
一.下载 工具vue-devtools 注:必须是5.1.1版本 比这个版本高的试过,没法正确使用. https://github.com/vuejs/vue-devtools/tree/v5.1.1 ...
- <vue 基础知识 7、循环遍历>
代码结构 一. 01-v-for遍历数组 1.效果 2.代码 01-v-for遍历数组.html <!DOCTYPE html> <html lang="en&qu ...
- 以太网扫盲(一)各种网络总线 mii总线,mdio总线介绍
本文主要介绍以太网的MAC(Media Access Control,即媒体访问控制子层协议)和PHY(物理层)之间的MII(Media Independent Interface ,媒体独立接口), ...
- 每天学五分钟 Liunx 0101 | 服务篇:创建进程
创建子进程 上一节说过创建子进程的三种方式: 1. fork 复制进程:fork 会复制当前进程的副本,产生一个新的子进程,父子进程是完全独立的两个进程,他们掌握的资源(环境变量和普通变量)是一样的. ...
- shell 实现项目的启动与停止
本文为博主原创,转载请注明出处: 1. 以tomcat 为例,编写启动脚本: #!/bin/sh bin=$(cd `dirname $0`; pwd) pid=$(ps aux | grep tom ...