《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Rules》论文阅读笔记
代码
原文地址
摘要
1 Introduction

2 Preliminaries
Problem Formulation
,其中包含
个命名实体
,DocRE 需要预测每一对不同的实体
之间的关系类型。关系类型的集合是
,其中
是预先定义好的,
表示“无关系”。DocRE比句子级关系抽取更具挑战性,因为它需要综合利用文档中多个句子的信息,并处理跨句实体之间的复杂依赖关系。Atoms and Rules
(或
) 是一个二元变量,表示头实体
和尾实体
之间是否存在关系
。如果存在,
。否则
。

是表示任意实体的变量,
是规则的长度。
和
分别称为头原子和体原子。本文采用概率软逻辑 (Kimmig 等人,2012; Bach 等人, 2017) 的框架,给每个规则赋予一个置信度属性,其值在 [0, 1] 区间内。一个规则
可以被看作是一个模板,它可以通过将
从变量替换为特定的实体
来实例化(记为
)。如果
的所有体原子都成立,称
是一个由
推导出的预测,即预测头原子由于
而成立。注意,一个不合理的规则可能没有对应的预测,因为它的体原子不可能同时成立。Paradigm of Backbones
,
表示其对数几率。通过sigmoid函数,
可以用来估计在给定
的条件下,关系
是否成立的概率,即
是sigmoid函数。
)。
通过将预测概率与分类阈值进行比较来确定
的预测关系:
表示
是一个预测事实,反之则否,
表示指示函数,
是
的分类阈值。常见的基于阈值的推理方法有全局阈值法(Yao等,2019;Zeng等,2020)和自适应阈值法(Zhou等,2021a;Yang Zhou等,2022)。这两种方法的主要区别在于
是否与
相关。3 Methodology

3.1 Rule Mining

的预测
的头原子在标注中,就称
为真预测。否则,称之为假预测。一个规则
的置信度定义为所有预测中真预测的比例:
是
的缩写,
和
分别是规则
在训练集中的真预测和假预测的数量。公式 4 可以看作是用条件相对频率来估计条件概率。注意,如果一个规则
没有预测,
被设为 0。
、扩展的关系集
、构造规则的最大长度
和过滤荒谬规则的最小置信度
作为输入。如算法 1 所示,RM 枚举所有可能的规则(第 2-4 行)。在枚举过程中,RM 根据公式 4 计算
(第 5 行)。如果
高于
,RM 将
和相应的
添加到输出中(第 6-7 行)。3.2 Consistency Regularization

是
的长度,
是一个与
相关的松弛超参数,
是由公式 2 计算的输出概率。在这个定义下,如果一个规则的置信度很高(接近 1),那么它的头原子的概率应该不低于它的体原子的联合概率,这里简单地用
来近似。这意味着规则的头原子可以由它的体原子或其他途径推出,比如明确的上下文或其他有相同头原子的规则。随着置信度的降低,这个约束也会相应地放宽。(本文定义
)
外,还有另一个与逻辑一致性相关的损失
,应该被最小化。为了将
和
都放在概率的对数空间中,给定一个文档
,将
表示为
枚举了所有实例化的规则,并正则化相应的对数值,使其满足公式 5 定义的理想形式。如果规则的理想概率形式几乎被满足,那么一致性正则化损失
及其梯度都很小,因此对骨干网络的训练影响不大。如果不是,
将在训练中产生很大的梯度幅度,从而正则化骨干网络以满足逻辑一致性。
是一个用于平衡两个损失的超参数。通过这种方式,学习过程试图统一单个原子的似然性质和多个关系之间的逻辑性质,从而支持骨干网络全面理解给定的注释。3.3 Global Inference
为一个 DocRE 模型,
为输出的对数值,
为阈值,
为原子
的预测结果,
。对于以下问题:
,其中
。证明见附录 A。目标函数的构造受到了 BCE 损失函数的启发。因此,基于阈值的方法可以被看作是利用潜在的预测结果
作为二元决策变量,无约束地最小化分布
相对于分布
的交叉熵之和。
,逻辑一致性要求它的预测体原子都成立,那么它的预测头原子也成立。如果任何一个体原子失败,逻辑一致性对预测头原子没有约束。这可以用数学表达为 
。添加这些逻辑约束和对称约束,就可以得到全局推理方法的原始形式:
个逻辑约束,其中
是实体的数量。这些冗余的约束会导致计算速度非常慢。为了解决这个问题,本文提出了一种启发式策略来简化约束,具体见算法 2。该策略的思想是,只对那些由基于阈值的方法预测为真的体原子的预测施加逻辑约束,用逻辑规则来修正它们和相应的头原子。而其他原子的预测结果则保持与通过阈值化概率产生的银标签一致。从数学上看,这种策略相当于对最优解处的正约束做了近似。这样做的好处是,由于大多数实体对没有关系,约束的数量可以大大减少。

是超参数,
是在训练集上评估的关系
的频率。这些补偿项可以帮助缓解DocRE的类不平衡问题。3.4 Comparison with LogiRE

《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Rules》论文阅读笔记的更多相关文章
- 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
- (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
- 生成对抗网络(Generative Adversarial Networks,GAN)初探
1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
- 生成对抗网络(Generative Adversarial Networks, GAN)
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
- StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
- 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
- 《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型 仔细理解了 在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
- Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
- SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
- Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...
随机推荐
- 机器学习-无监督机器学习-LDA线性判别分析-25
目录 1. Linear Discriminant Analysis 线性判别分析 1. Linear Discriminant Analysis 线性判别分析 经常被用于分类问题的降维技术,相比于P ...
- 12-Verilog-同步FIFO设计
同步FIFO和异步FIFO FIFO分为一个同步FIFO,一个异步FIFO,FIFO有读口和写口 读写时钟是一个,就是同步FIFO;读写时钟不是一个,异步FIFO IP核设计中,一般使用同步FIFO设 ...
- [转帖]字符集 AL32UTF8 和 UTF8
https://blog.51cto.com/comtv/383254# 文章标签职场休闲字符集 AL32UTF8 和 UTF8文章分类数据库阅读数1992 The difference betwee ...
- [转帖]Nginx 性能优化
目录 1.调整 worker 进程数 2.调整 worker 连接数 3.调整 work 进程最大打开文件数 4.开启高效文件传输模式 5.限制文件上传大小 6.开启 gzip 压缩 7.本地缓存静态 ...
- [转帖]linux系统上free命令看到的buff/cache到底是什么
https://zhuanlan.zhihu.com/p/645904515 上周二一大早,小智准备早点去公司肝一篇技术文分享给大家的,哪成想,一到公司就被测试部的"卷王"拉去看问 ...
- Grafana监控minio的极简方法
Grafana监控minio的极简方法 背景 想监控一下minio的部分信息. 使用过程中需要关注的内容挺多的. 只看简单的node感觉已经不够了. 所以想监控易一下. 方式和方法 minio其实集成 ...
- [转帖]使用 TiUP 部署 TiDB 集群
https://docs.pingcap.com/zh/tidb/stable/production-deployment-using-tiup TiUP 是 TiDB 4.0 版本引入的集群运维工具 ...
- [转帖]《Linux性能优化实战》笔记(二)—— CPU 上下文切换(上)
上一篇的最后一个例子,在多个进程竞争CPU时,我们看到每个进程实际上%usr部分只有20%多,70%多是在wait,但是load远远高于单个进程使用CPU达到100%. 这让我想到之前看的RWP公开课 ...
- FS OFS RS ORS
- vue3中markRaw的使用
markRaw 作用:将一个对象标记为不可以被转化为代理对象.返回该对象本身. 应用场景: 1.有些值不应被设置成响应式时,例如复杂的第三方类库等 2.当渲染具有不可变数据源的大列表时,跳过响应式转换 ...