《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Rules》论文阅读笔记
代码
原文地址
摘要
1 Introduction

2 Preliminaries
Problem Formulation
,其中包含
个命名实体
,DocRE 需要预测每一对不同的实体
之间的关系类型。关系类型的集合是
,其中
是预先定义好的,
表示“无关系”。DocRE比句子级关系抽取更具挑战性,因为它需要综合利用文档中多个句子的信息,并处理跨句实体之间的复杂依赖关系。Atoms and Rules
(或
) 是一个二元变量,表示头实体
和尾实体
之间是否存在关系
。如果存在,
。否则
。

是表示任意实体的变量,
是规则的长度。
和
分别称为头原子和体原子。本文采用概率软逻辑 (Kimmig 等人,2012; Bach 等人, 2017) 的框架,给每个规则赋予一个置信度属性,其值在 [0, 1] 区间内。一个规则
可以被看作是一个模板,它可以通过将
从变量替换为特定的实体
来实例化(记为
)。如果
的所有体原子都成立,称
是一个由
推导出的预测,即预测头原子由于
而成立。注意,一个不合理的规则可能没有对应的预测,因为它的体原子不可能同时成立。Paradigm of Backbones
,
表示其对数几率。通过sigmoid函数,
可以用来估计在给定
的条件下,关系
是否成立的概率,即
是sigmoid函数。
)。
通过将预测概率与分类阈值进行比较来确定
的预测关系:
表示
是一个预测事实,反之则否,
表示指示函数,
是
的分类阈值。常见的基于阈值的推理方法有全局阈值法(Yao等,2019;Zeng等,2020)和自适应阈值法(Zhou等,2021a;Yang Zhou等,2022)。这两种方法的主要区别在于
是否与
相关。3 Methodology

3.1 Rule Mining

的预测
的头原子在标注中,就称
为真预测。否则,称之为假预测。一个规则
的置信度定义为所有预测中真预测的比例:
是
的缩写,
和
分别是规则
在训练集中的真预测和假预测的数量。公式 4 可以看作是用条件相对频率来估计条件概率。注意,如果一个规则
没有预测,
被设为 0。
、扩展的关系集
、构造规则的最大长度
和过滤荒谬规则的最小置信度
作为输入。如算法 1 所示,RM 枚举所有可能的规则(第 2-4 行)。在枚举过程中,RM 根据公式 4 计算
(第 5 行)。如果
高于
,RM 将
和相应的
添加到输出中(第 6-7 行)。3.2 Consistency Regularization

是
的长度,
是一个与
相关的松弛超参数,
是由公式 2 计算的输出概率。在这个定义下,如果一个规则的置信度很高(接近 1),那么它的头原子的概率应该不低于它的体原子的联合概率,这里简单地用
来近似。这意味着规则的头原子可以由它的体原子或其他途径推出,比如明确的上下文或其他有相同头原子的规则。随着置信度的降低,这个约束也会相应地放宽。(本文定义
)
外,还有另一个与逻辑一致性相关的损失
,应该被最小化。为了将
和
都放在概率的对数空间中,给定一个文档
,将
表示为
枚举了所有实例化的规则,并正则化相应的对数值,使其满足公式 5 定义的理想形式。如果规则的理想概率形式几乎被满足,那么一致性正则化损失
及其梯度都很小,因此对骨干网络的训练影响不大。如果不是,
将在训练中产生很大的梯度幅度,从而正则化骨干网络以满足逻辑一致性。
是一个用于平衡两个损失的超参数。通过这种方式,学习过程试图统一单个原子的似然性质和多个关系之间的逻辑性质,从而支持骨干网络全面理解给定的注释。3.3 Global Inference
为一个 DocRE 模型,
为输出的对数值,
为阈值,
为原子
的预测结果,
。对于以下问题:
,其中
。证明见附录 A。目标函数的构造受到了 BCE 损失函数的启发。因此,基于阈值的方法可以被看作是利用潜在的预测结果
作为二元决策变量,无约束地最小化分布
相对于分布
的交叉熵之和。
,逻辑一致性要求它的预测体原子都成立,那么它的预测头原子也成立。如果任何一个体原子失败,逻辑一致性对预测头原子没有约束。这可以用数学表达为 
。添加这些逻辑约束和对称约束,就可以得到全局推理方法的原始形式:
个逻辑约束,其中
是实体的数量。这些冗余的约束会导致计算速度非常慢。为了解决这个问题,本文提出了一种启发式策略来简化约束,具体见算法 2。该策略的思想是,只对那些由基于阈值的方法预测为真的体原子的预测施加逻辑约束,用逻辑规则来修正它们和相应的头原子。而其他原子的预测结果则保持与通过阈值化概率产生的银标签一致。从数学上看,这种策略相当于对最优解处的正约束做了近似。这样做的好处是,由于大多数实体对没有关系,约束的数量可以大大减少。

是超参数,
是在训练集上评估的关系
的频率。这些补偿项可以帮助缓解DocRE的类不平衡问题。3.4 Comparison with LogiRE

《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Rules》论文阅读笔记的更多相关文章
- 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
- (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
- 生成对抗网络(Generative Adversarial Networks,GAN)初探
1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
- 生成对抗网络(Generative Adversarial Networks, GAN)
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
- StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
- 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
- 《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型 仔细理解了 在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
- Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
- SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
- Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...
随机推荐
- AHB-SRAMC Design-01
AHB-SRAMC Design 1.AHB-SoC芯片架构图 CPU赋予了SoC的可编程性 SRAM可以存储数据和代码 2.AHB-SRAMC Features 总线版本号 在进行设计的时候可以将地 ...
- 【TouchGFX】使用CubeMX创建touchgfx项目 -- 初始篇
1.系统构成,黑色块表示组件非必须 2.环境准备 CubeMX:6.0.1 touchgfx:4.15.0 rt-thread:2020-8-14 commit Keil:5.30 board:stm ...
- Go-竞态条件-锁
1. 产生环境 多个进程(process).线程(threading)或协程(routine)存在对同一个资源访问顺序敏感(时间上的错误) 2. 概念 临界区 -- 时间上对同一资源的读写产生的数据不 ...
- [转帖]sql server 索引阐述系列六 碎片查看与解决方案
https://www.cnblogs.com/MrHSR/p/9365720.html 一 . dm_db_index_physical_stats 重要字段说明 1.1 内部碎片:是avg_pag ...
- [转帖]CentOS7安装笔记:minio分布式集群搭建
文章目录 准备机器 部署(所有机器均执行) 创建挂载磁盘路径 挂载磁盘路径到文件系统 创建minio目录 下载minio安装包 创建启动脚本 创建启动服务 启动测试(所有机器执行) 重新加载服务的配置 ...
- 【转帖】ethool工具之TSO、UFO、GSO、LRO、GRO和RSS介绍
ethtool -k < 网络接口>, ethtool --show-offload < 网络接口>, 或者可以看到很多网络接口的offload特性,例如: $ sudo et ...
- [转帖]SPEC2006
安装步骤 # Ubuntu16.04 # 注意安装gFortran . ./install.sh . ./shrc 一般情况下经过以上步骤即可安装完毕,进行使用,注意需要执行shrc设置完环境变量以后 ...
- [转帖]「更易用的OceanBase」|OceanBase 4.0 一体化安装包 - 把简单留给用户
https://www.modb.pro/db/565842 1. OceanBase 3.x 版本安装浅谈 我是在 OceanBase 3.1.4 版本的时候开始尝试入手测试的.刚开始 OB 3.x ...
- Oracle 提示 用户在线,无法删除的清理方法
查找删除策略. select username,sid,serial# from v$session where username='FSSCDEC004'; alter system kill se ...
- Linux线程间交互
前言 上一篇说过,系统会为线程mmap一块内存,每个线程有自己的私有栈,使用局部变量没啥问题.但是实际场景中不可避免的需要线程之间共享数据,这就需要确保每个线程看到的数据是一样的,如果大家都只需要读这 ...