《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Rules》论文阅读笔记
代码
原文地址
摘要
1 Introduction

2 Preliminaries
Problem Formulation
,其中包含
个命名实体
,DocRE 需要预测每一对不同的实体
之间的关系类型。关系类型的集合是
,其中
是预先定义好的,
表示“无关系”。DocRE比句子级关系抽取更具挑战性,因为它需要综合利用文档中多个句子的信息,并处理跨句实体之间的复杂依赖关系。Atoms and Rules
(或
) 是一个二元变量,表示头实体
和尾实体
之间是否存在关系
。如果存在,
。否则
。

是表示任意实体的变量,
是规则的长度。
和
分别称为头原子和体原子。本文采用概率软逻辑 (Kimmig 等人,2012; Bach 等人, 2017) 的框架,给每个规则赋予一个置信度属性,其值在 [0, 1] 区间内。一个规则
可以被看作是一个模板,它可以通过将
从变量替换为特定的实体
来实例化(记为
)。如果
的所有体原子都成立,称
是一个由
推导出的预测,即预测头原子由于
而成立。注意,一个不合理的规则可能没有对应的预测,因为它的体原子不可能同时成立。Paradigm of Backbones
,
表示其对数几率。通过sigmoid函数,
可以用来估计在给定
的条件下,关系
是否成立的概率,即
是sigmoid函数。
)。
通过将预测概率与分类阈值进行比较来确定
的预测关系:
表示
是一个预测事实,反之则否,
表示指示函数,
是
的分类阈值。常见的基于阈值的推理方法有全局阈值法(Yao等,2019;Zeng等,2020)和自适应阈值法(Zhou等,2021a;Yang Zhou等,2022)。这两种方法的主要区别在于
是否与
相关。3 Methodology

3.1 Rule Mining

的预测
的头原子在标注中,就称
为真预测。否则,称之为假预测。一个规则
的置信度定义为所有预测中真预测的比例:
是
的缩写,
和
分别是规则
在训练集中的真预测和假预测的数量。公式 4 可以看作是用条件相对频率来估计条件概率。注意,如果一个规则
没有预测,
被设为 0。
、扩展的关系集
、构造规则的最大长度
和过滤荒谬规则的最小置信度
作为输入。如算法 1 所示,RM 枚举所有可能的规则(第 2-4 行)。在枚举过程中,RM 根据公式 4 计算
(第 5 行)。如果
高于
,RM 将
和相应的
添加到输出中(第 6-7 行)。3.2 Consistency Regularization

是
的长度,
是一个与
相关的松弛超参数,
是由公式 2 计算的输出概率。在这个定义下,如果一个规则的置信度很高(接近 1),那么它的头原子的概率应该不低于它的体原子的联合概率,这里简单地用
来近似。这意味着规则的头原子可以由它的体原子或其他途径推出,比如明确的上下文或其他有相同头原子的规则。随着置信度的降低,这个约束也会相应地放宽。(本文定义
)
外,还有另一个与逻辑一致性相关的损失
,应该被最小化。为了将
和
都放在概率的对数空间中,给定一个文档
,将
表示为
枚举了所有实例化的规则,并正则化相应的对数值,使其满足公式 5 定义的理想形式。如果规则的理想概率形式几乎被满足,那么一致性正则化损失
及其梯度都很小,因此对骨干网络的训练影响不大。如果不是,
将在训练中产生很大的梯度幅度,从而正则化骨干网络以满足逻辑一致性。
是一个用于平衡两个损失的超参数。通过这种方式,学习过程试图统一单个原子的似然性质和多个关系之间的逻辑性质,从而支持骨干网络全面理解给定的注释。3.3 Global Inference
为一个 DocRE 模型,
为输出的对数值,
为阈值,
为原子
的预测结果,
。对于以下问题:
,其中
。证明见附录 A。目标函数的构造受到了 BCE 损失函数的启发。因此,基于阈值的方法可以被看作是利用潜在的预测结果
作为二元决策变量,无约束地最小化分布
相对于分布
的交叉熵之和。
,逻辑一致性要求它的预测体原子都成立,那么它的预测头原子也成立。如果任何一个体原子失败,逻辑一致性对预测头原子没有约束。这可以用数学表达为 
。添加这些逻辑约束和对称约束,就可以得到全局推理方法的原始形式:
个逻辑约束,其中
是实体的数量。这些冗余的约束会导致计算速度非常慢。为了解决这个问题,本文提出了一种启发式策略来简化约束,具体见算法 2。该策略的思想是,只对那些由基于阈值的方法预测为真的体原子的预测施加逻辑约束,用逻辑规则来修正它们和相应的头原子。而其他原子的预测结果则保持与通过阈值化概率产生的银标签一致。从数学上看,这种策略相当于对最优解处的正约束做了近似。这样做的好处是,由于大多数实体对没有关系,约束的数量可以大大减少。

是超参数,
是在训练集上评估的关系
的频率。这些补偿项可以帮助缓解DocRE的类不平衡问题。3.4 Comparison with LogiRE

《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Rules》论文阅读笔记的更多相关文章
- 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
- (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
- 生成对抗网络(Generative Adversarial Networks,GAN)初探
1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
- 生成对抗网络(Generative Adversarial Networks, GAN)
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
- StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
- 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
- 《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型 仔细理解了 在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
- Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
- SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
- Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...
随机推荐
- windows10/liunx创建空大文件
1.windows10创建空大文件打开cmd命令,进入需要创建文件的目录,使用以下命令创建 fsutil file createnew test001.txt 1073741824 最后的数字代表文件 ...
- oracle数据库锁表后的处理方案
oracle数据库, 数据库(执行查询语句或存储过程执行)操作,导致表被锁死的情况的解决方案: 一.查看已经锁定的数据库表 select b.owner,b.object_name,a.session ...
- 人人都会Kubernetes(二):使用KRM实现快速部署服务,并且通过域名发布
1. 上节回顾 上一小节<人人都会Kubernetes(一):告别手写K8s yaml,运维效率提升500%>介绍了KRM的一些常用功能,并且使用KRM的DEMO环境,无需安装就可以很方便 ...
- ACP 知识点总结
记录下学习ACP过程不断遇到的且需要记录的知识点: 在阿里云专有网络VPC创建之后,路由器也是随着VPC一起自动创建,所以不需要手动创建,这个时候需要继续创建交换机才能在交换机种创建其他云产品. 7层 ...
- idea中配置mybatis 映射文件模版及 mybatis plus 自定义sql
本文为博主原创,未经允许不得转载: mybatis plus 使用过程中已经很大程度提升了我们开发的效率,因为它内部已经对单表的操作进行了完美的封装,但是关联表操作时, 这时就需要自己定义sql,自定 ...
- [官网]微软服务器TLS的支持情况
https://learn.microsoft.com/en-us/windows/win32/secauthn/protocols-in-tls-ssl--schannel-ssp-#tls-pro ...
- Sonarqube 二进制的安装与简单使用
Sonarqube 二进制的安装与简单使用 背景 使用容器安装 sonarqube 发现无法使用PG数据库 尝试了很长时间没搞定 想了想还是使用 二进制的方式进行部署吧. 下载 https://bin ...
- [转帖]Grafana+influxdb+ntopng简易网络流量分析展示系统
Grafana逼格高,所以用它展示ntopng的数据 >_< 一,ntopng 根据官网资料 https://www.ntop.org/ntop/ntopng-influxdb-and-g ...
- [转帖]Linux下清理内存和Cache方法见下文:
https://www.cnblogs.com/the-tops/p/8798630.html 暂时目前的环境处理方法比较简单: 在root用户下添加计划任务: */10 * * * * sync;e ...
- [转帖]Linux中最全shell命令&常用注意事项
在编辑linux脚本中不断的会用到复杂的脚本编辑,写文章记录. Linux命令大全(手册) – 真正好用的Linux命令在线查询网站 目录 推荐书籍: Linux常用命令 Linux 常用命令 在li ...