《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Rules》论文阅读笔记
代码
原文地址
摘要
1 Introduction

2 Preliminaries
Problem Formulation
,其中包含
个命名实体
,DocRE 需要预测每一对不同的实体
之间的关系类型。关系类型的集合是
,其中
是预先定义好的,
表示“无关系”。DocRE比句子级关系抽取更具挑战性,因为它需要综合利用文档中多个句子的信息,并处理跨句实体之间的复杂依赖关系。Atoms and Rules
(或
) 是一个二元变量,表示头实体
和尾实体
之间是否存在关系
。如果存在,
。否则
。

是表示任意实体的变量,
是规则的长度。
和
分别称为头原子和体原子。本文采用概率软逻辑 (Kimmig 等人,2012; Bach 等人, 2017) 的框架,给每个规则赋予一个置信度属性,其值在 [0, 1] 区间内。一个规则
可以被看作是一个模板,它可以通过将
从变量替换为特定的实体
来实例化(记为
)。如果
的所有体原子都成立,称
是一个由
推导出的预测,即预测头原子由于
而成立。注意,一个不合理的规则可能没有对应的预测,因为它的体原子不可能同时成立。Paradigm of Backbones
,
表示其对数几率。通过sigmoid函数,
可以用来估计在给定
的条件下,关系
是否成立的概率,即
是sigmoid函数。
)。
通过将预测概率与分类阈值进行比较来确定
的预测关系:
表示
是一个预测事实,反之则否,
表示指示函数,
是
的分类阈值。常见的基于阈值的推理方法有全局阈值法(Yao等,2019;Zeng等,2020)和自适应阈值法(Zhou等,2021a;Yang Zhou等,2022)。这两种方法的主要区别在于
是否与
相关。3 Methodology

3.1 Rule Mining

的预测
的头原子在标注中,就称
为真预测。否则,称之为假预测。一个规则
的置信度定义为所有预测中真预测的比例:
是
的缩写,
和
分别是规则
在训练集中的真预测和假预测的数量。公式 4 可以看作是用条件相对频率来估计条件概率。注意,如果一个规则
没有预测,
被设为 0。
、扩展的关系集
、构造规则的最大长度
和过滤荒谬规则的最小置信度
作为输入。如算法 1 所示,RM 枚举所有可能的规则(第 2-4 行)。在枚举过程中,RM 根据公式 4 计算
(第 5 行)。如果
高于
,RM 将
和相应的
添加到输出中(第 6-7 行)。3.2 Consistency Regularization

是
的长度,
是一个与
相关的松弛超参数,
是由公式 2 计算的输出概率。在这个定义下,如果一个规则的置信度很高(接近 1),那么它的头原子的概率应该不低于它的体原子的联合概率,这里简单地用
来近似。这意味着规则的头原子可以由它的体原子或其他途径推出,比如明确的上下文或其他有相同头原子的规则。随着置信度的降低,这个约束也会相应地放宽。(本文定义
)
外,还有另一个与逻辑一致性相关的损失
,应该被最小化。为了将
和
都放在概率的对数空间中,给定一个文档
,将
表示为
枚举了所有实例化的规则,并正则化相应的对数值,使其满足公式 5 定义的理想形式。如果规则的理想概率形式几乎被满足,那么一致性正则化损失
及其梯度都很小,因此对骨干网络的训练影响不大。如果不是,
将在训练中产生很大的梯度幅度,从而正则化骨干网络以满足逻辑一致性。
是一个用于平衡两个损失的超参数。通过这种方式,学习过程试图统一单个原子的似然性质和多个关系之间的逻辑性质,从而支持骨干网络全面理解给定的注释。3.3 Global Inference
为一个 DocRE 模型,
为输出的对数值,
为阈值,
为原子
的预测结果,
。对于以下问题:
,其中
。证明见附录 A。目标函数的构造受到了 BCE 损失函数的启发。因此,基于阈值的方法可以被看作是利用潜在的预测结果
作为二元决策变量,无约束地最小化分布
相对于分布
的交叉熵之和。
,逻辑一致性要求它的预测体原子都成立,那么它的预测头原子也成立。如果任何一个体原子失败,逻辑一致性对预测头原子没有约束。这可以用数学表达为 
。添加这些逻辑约束和对称约束,就可以得到全局推理方法的原始形式:
个逻辑约束,其中
是实体的数量。这些冗余的约束会导致计算速度非常慢。为了解决这个问题,本文提出了一种启发式策略来简化约束,具体见算法 2。该策略的思想是,只对那些由基于阈值的方法预测为真的体原子的预测施加逻辑约束,用逻辑规则来修正它们和相应的头原子。而其他原子的预测结果则保持与通过阈值化概率产生的银标签一致。从数学上看,这种策略相当于对最优解处的正约束做了近似。这样做的好处是,由于大多数实体对没有关系,约束的数量可以大大减少。

是超参数,
是在训练集上评估的关系
的频率。这些补偿项可以帮助缓解DocRE的类不平衡问题。3.4 Comparison with LogiRE

《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Rules》论文阅读笔记的更多相关文章
- 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
- (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
- 生成对抗网络(Generative Adversarial Networks,GAN)初探
1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
- 生成对抗网络(Generative Adversarial Networks, GAN)
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
- StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
- 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
- 《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型 仔细理解了 在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
- Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
- SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
- Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...
随机推荐
- python · matplotlib | 如何绘制子图
代码: import matplotlib.pyplot as plt import matplotlib matplotlib.rc("font",family='MicroSo ...
- 0xGame 2023【WEEK1】Crypto全解
What's CBC? 题目信息 from Crypto.Util.number import * from secret import flag,key def bytes_xor(a,b): a, ...
- JQuery - CheckBox Prop 和 attr 的区别
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- 让vs支持wsl调试
WSL安装 wsl --install -d Ubuntu 等一会提示输入用户名,不用管它,直接关闭,下次打开wsl,会以无密码的root用户打开 wsl卸载 wsl --unregister Ubu ...
- SQL联结
1联结 那我们又该如何创建联结呢? So easy! 规定要联结的所有表以及它们如何关联就可以了. 在设置关联条件时,为避免不同表被引用的列名相同,我们需要使用完全限定列名(用一个点分隔表名和列名), ...
- [转帖]Java程序在K8S容器部署CPU和Memory资源限制相关设置
2019-04-297279 版权 本文涉及的产品 容器服务 Serverless 版 ACK Serverless,317元额度 多规格 推荐场景: 立即试用 容器镜像服务 ACR,镜像仓库100个 ...
- [转帖]【KingbaseES】sys_dump逻辑备份工具详解
KingbaseES逻辑备份还原工具提供了数据库对象一级的联机备份还原功能,备份对象包括: 数据库 模式 表 视图 约束 权限 触发器 函数 序列 逻辑备份的输出格式包括: 二进制 SQL脚本 此外, ...
- [转帖]Linux-计算毫秒数
https://www.cnblogs.com/yeyuzhuanjia/p/15822653.html date +%s返回自划时代以来的秒数. date +%s%N返回秒数+当前纳秒数. 因此,e ...
- 【转帖】MySQL索引
数据表如何用索引快速查找 索引是 排好序的快速查找的数据结构 索引存储在文件系统中 索引的文件存储形式与存储引擎有关 索引数据结构:可以是二叉树.红黑树.Hash表.B-Tree.B+Tree 1.二 ...
- Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)
阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战,但实际上,Whisper的使用者完全可以针对中文的语音做一些优化的措施,换句话说,Whisper的"默认"形态 ...