代码

原文

摘要

文档级联合实体和关系抽取是一项难度很大的信息抽取任务，它要求用一个神经网络同时完成四个子任务，分别是：提及检测、共指消解、实体分类和关系抽取。目前的方法大多采用顺序的多任务学习方式，这种方式将任务任意分解，使得每个任务只依赖于前一个任务的结果，而忽略了任务之间可能存在的更复杂的相互影响。为了解决这些问题，本文提出了一种新的多任务学习框架，设计了一个统一的模型来处理所有的子任务，该模型的工作流程如下：首先，识别出文本中的实体提及，并将它们聚合成共指簇；其次，为每个实体簇分配一个合适的实体类型；最后，在实体簇之间建立关系。图 1 给出了一个来自 DocRED 数据集的文档示例，以及模型期望输出的实体簇图。为了克服基于流水线的方法的局限性，在模型中引入了双向的记忆式依赖机制，使得各个子任务能够相互影响和提升，从而更有效地完成联合任务。

模型架构

该方法受到了 JEREX 的启发，由四个任务特定的组件组成：提及抽取（

）、共指消解（

）、实体抽取（

）和关系抽取（

）。与原来的流水线式架构不同，这里引入了图 2 所示的记忆模块，使得各个组件的输入表示能够通过基于记忆的扩展表示模块进行更新。该模块使用 Memory Read 操作从记忆矩阵

和

中读取信息，这两个矩阵分别由实体和关系分类器写入。这样，各个组件之间就形成了双向的信息交互，从而更有效地完成联合任务。

Memory reading

该方法与 TriMF 类似，都是利用注意力机制，将输入表示与从记忆中读取的信息相结合，得到扩展的表示。如图 2 所示，本文的架构对两种输入表示进行了扩展：一种是词嵌入

，另一种是提及候选的跨度表示

。对于每一种输入表示

（

），以及每一种记忆矩阵

（

），注意力机制将输入表示

作为键和值，其中

是表示向量的个数，

是嵌入的维度。

作为查询，注意力机制使用记忆矩阵

，其中

是记忆槽的个数，

是记忆槽的维度。为了计算注意力权重向量

，对记忆槽的维度求和，公式如下：

其中

是注意力机制的可学习参数矩阵，

是

的第

个记忆槽。然后，

向量用于对

进行加权，得到扩展的输入表示

：

对于每一种输入表示

，记忆读取操作基于两种记忆矩阵生成两种扩展表示

和

。最终的扩展表示是通过对

和

求逐元素平均值得到的。

Memory writing

和

是两个记忆矩阵，它们分别存储了不同的实体和关系类别的表示。这些表示是通过相关分类器的损失函数的梯度来更新的，

对应实体分类器，

对应关系分类器。为了提高表示的精度，损失函数取决于类别嵌入和属于该类别的实例表示之间的相似度，这个相似度是根据实例的标签来确定的。因此，实体和关系分类器都基于输入表示和相应的记忆矩阵之间的相似度函数

来进行分类。给定实体

的表示向量

，它的实体类型的概率分布如下：

给定实体对

的表示向量

，它的关系类型的存在概率如下：

定义

为实例表示

和记忆矩阵

之间的双线性相似度，形式如下：

其中

是一个可学习的参数矩阵。对于实体和关系分类器，分别使用了不同的双线性相似度权重矩阵：

和

，其中

和

是实体和实体对表示的维度。

和

是实体和关系记忆矩阵的记忆槽的维度。在这里，记忆矩阵的记忆槽的数量与分类器的类别的数量相同。

Training

最后，模型被训练优化关节损失

，该关节包含与JEREX中相同的四个子任务相关的损失

，并以固定的任务相关权值

加权:

本文还纳入了TriMF中提出的两阶段训练方法，在超参数搜索过程中调整记忆预热比例。

《Similarity-based Memory Enhanced Joint Entity and Relation Extraction》论文阅读笔记的更多相关文章

《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错值得借鉴)重点阐述了生成音乐和生成图片,视频 ...
（转）Introductory guide to Generative Adversarial Networks (GANs) and their promise!
Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...
生成对抗网络（Generative Adversarial Networks，GAN）初探
1. 从纳什均衡(Nash equilibrium)说起我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...
生成对抗网络（Generative Adversarial Networks, GAN）
生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一. GAN 主要包括了两个部分,即 ...
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 本文将利 ...
论文笔记之：Semi-Supervised Learning with Generative Adversarial Networks
Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...
《Self-Attention Generative Adversarial Networks》里的注意力计算
前天看了 criss-cross 里的注意力模型仔细理解了在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...
Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection
Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11 19:47:46 CVPR 20 ...
SalGAN: Visual saliency prediction with generative adversarial networks
SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...
Generative Adversarial Networks,gan论文的畅想
前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人的看法和观点,可能我是机器学习小白吧,看完之 ...

随机推荐

[转帖]ARMv8架构概述、相关技术文档以及ARMv8处理器简介
ARMv8架构文章目录 ARMv8架构参考文档 ARMv8架构的概述从32位到64位的变化The changes from 32 bits to 64 bits 1,Larger registe ...
[转帖]oracle如何删除datafile,误删除Oracle datafile 无法打开数据库
1.在Oracle open方式下,直接从OS上删除了datafile文件. rm /u02/rmants.dbf 2.数据库关闭后,无法打开数据库,只能到mount状态. SQL> alter ...
PMC相关RAID卡信息查看方法
PMC相关RAID卡信息查看方法摘要昨天简单整理了LSI相关设备的信息今天计划学习下PMC相关的RAID卡信息. 也就是偶昨天storcli 查看 controller为0 的情况. 感觉部分服 ...
Jumper Server 堡垒机搭建过程
Jumper Server 堡垒机搭建过程背景说明公司组织考核, 要对一套系统进行安全设置.有一个项目是使用堡垒机进行登录堡垒机有多种用途,可以实现日志审计和安全设置等. 买商业设备的话太困难了 ...
京东哥伦布即时设计平台ChatGPT落地实践
一.平台介绍即时设计平台是一个即时搭建c端楼层的开发平台,支持通过导入relay设计稿url完成Ui2Code,在此基础上完成前端可视化搭建,同时支持通过ChatGPT完成一句话需求,搭建后的楼层自 ...
vue中v-model修饰符的使用和组件使用v-model
1.lazy 修饰器 lazy修饰器在input框中的表现效果是: 当你失去焦点后值才会跟新. 它的跟新时机是失去焦点后这个修饰器在项目中运用的场景较少 <template> <d ...
vue同步组件和异步组件的区别
异步组件异步组件:只在组件需要渲染(组件第一次显示)的时候进行加载渲染并缓存,缓存是以备下次访问. Vue实现按需加载在打包的时候,会打包成单独的js文件存储在static/js文件夹里面** 在 ...
手撕Vue-数据驱动界面改变上
经过上一篇的介绍,已经实现了监听数据的变化,接下来就是要实现数据变化后,界面也跟着变化,这就是数据驱动界面改变. 想要实现数据变化之后更新UI界面,我们可以使用发布订阅模式来实现,先定义一个观察者类, ...
MybatisPlus对Mysql数据库关键字作为列名的处理--SQLSyntaxErrorException: You have an error in your SQL syntax;
说明: 在设计数据库时,使用mysql关键字作为列名(比如order用于排序),就会报错:java.sql.SQLSyntaxErrorException: You have an error in ...
19c RAC 告警日志报错 ORA 7445 [pevm_icd_call_common()+225]
问题现象: 在一套2节点的19c RAC 环境下,节点2 alert告警 ORA 7445,且频度固定为每分钟报一次:期间有重启实例,但故障依旧: ========================== ...

《Similarity-based Memory Enhanced Joint Entity and Relation Extraction》论文阅读笔记

代码

原文