代码

原文

摘要

文档级联合实体和关系抽取是一项难度很大的信息抽取任务,它要求用一个神经网络同时完成四个子任务,分别是:提及检测、共指消解、实体分类和关系抽取。目前的方法大多采用顺序的多任务学习方式,这种方式将任务任意分解,使得每个任务只依赖于前一个任务的结果,而忽略了任务之间可能存在的更复杂的相互影响。为了解决这些问题,本文提出了一种新的多任务学习框架,设计了一个统一的模型来处理所有的子任务,该模型的工作流程如下:首先,识别出文本中的实体提及,并将它们聚合成共指簇;其次,为每个实体簇分配一个合适的实体类型;最后,在实体簇之间建立关系。图 1 给出了一个来自 DocRED 数据集的文档示例,以及模型期望输出的实体簇图。为了克服基于流水线的方法的局限性,在模型中引入了双向的记忆式依赖机制,使得各个子任务能够相互影响和提升,从而更有效地完成联合任务。
 

模型架构

 
该方法受到了 JEREX  的启发,由四个任务特定的组件组成:提及抽取()、共指消解()、实体抽取()和关系抽取()。与原来的流水线式架构不同,这里引入了图 2 所示的记忆模块,使得各个组件的输入表示能够通过基于记忆的扩展表示模块进行更新。该模块使用 Memory Read 操作从记忆矩阵  和  中读取信息,这两个矩阵分别由实体和关系分类器写入。这样,各个组件之间就形成了双向的信息交互,从而更有效地完成联合任务。

Memory reading

该方法与 TriMF  类似,都是利用注意力机制,将输入表示与从记忆中读取的信息相结合,得到扩展的表示。如图 2 所示,本文的架构对两种输入表示进行了扩展:一种是词嵌入 ,另一种是提及候选的跨度表示 。对于每一种输入表示 ),以及每一种记忆矩阵 ),注意力机制将输入表示  作为键和值,其中  是表示向量的个数, 是嵌入的维度。
作为查询,注意力机制使用记忆矩阵 ,其中  是记忆槽的个数, 是记忆槽的维度。为了计算注意力权重向量 ,对记忆槽的维度求和,公式如下:
其中  是注意力机制的可学习参数矩阵, 是  的第  个记忆槽。然后, 向量用于对  进行加权,得到扩展的输入表示
对于每一种输入表示,记忆读取操作基于两种记忆矩阵生成两种扩展表示 。最终的扩展表示是通过对  和  求逐元素平均值得到的。

Memory writing

 和  是两个记忆矩阵,它们分别存储了不同的实体和关系类别的表示。这些表示是通过相关分类器的损失函数的梯度来更新的, 对应实体分类器, 对应关系分类器。为了提高表示的精度,损失函数取决于类别嵌入和属于该类别的实例表示之间的相似度,这个相似度是根据实例的标签来确定的。因此,实体和关系分类器都基于输入表示和相应的记忆矩阵之间的相似度函数  来进行分类。给定实体  的表示向量 ,它的实体类型的概率分布如下:
给定实体对  的表示向量 ,它的关系类型的存在概率如下:
定义  为实例表示  和记忆矩阵  之间的双线性相似度,形式如下:
其中  是一个可学习的参数矩阵。对于实体和关系分类器,分别使用了不同的双线性相似度权重矩阵:,其中  和  是实体和实体对表示的维度。 和  是实体和关系记忆矩阵的记忆槽的维度。在这里,记忆矩阵的记忆槽的数量与分类器的类别的数量相同。
 

Training

最后,模型被训练优化关节损失,该关节包含与JEREX中相同的四个子任务相关的损失,并以固定的任务相关权值加权:
本文还纳入了TriMF中提出的两阶段训练方法,在超参数搜索过程中调整记忆预热比例。
 

《Similarity-based Memory Enhanced Joint Entity and Relation Extraction》论文阅读笔记的更多相关文章

  1. 《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记

    出处:2018 AAAI SourceCode:https://github.com/salu133445/musegan abstract: (写得不错 值得借鉴)重点阐述了生成音乐和生成图片,视频 ...

  2. (转)Introductory guide to Generative Adversarial Networks (GANs) and their promise!

    Introductory guide to Generative Adversarial Networks (GANs) and their promise! Introduction Neural ...

  3. 生成对抗网络(Generative Adversarial Networks,GAN)初探

    1. 从纳什均衡(Nash equilibrium)说起 我们先来看看纳什均衡的经济学定义: 所谓纳什均衡,指的是参与人的这样一种策略组合,在该策略组合上,任何参与人单独改变策略都不会得到好处.换句话 ...

  4. 生成对抗网络(Generative Adversarial Networks, GAN)

      生成对抗网络(Generative Adversarial Networks, GAN)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的学习方法之一.   GAN 主要包括了两个部分,即 ...

  5. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks 论文笔记

    StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks  本文将利 ...

  6. 论文笔记之:Semi-Supervised Learning with Generative Adversarial Networks

    Semi-Supervised Learning with Generative Adversarial Networks 引言:本文将产生式对抗网络(GAN)拓展到半监督学习,通过强制判别器来输出类 ...

  7. 《Self-Attention Generative Adversarial Networks》里的注意力计算

    前天看了 criss-cross 里的注意力模型  仔细理解了  在: https://www.cnblogs.com/yjphhw/p/10750797.html 今天又看了一个注意力模型 < ...

  8. Paper Reading: Perceptual Generative Adversarial Networks for Small Object Detection

    Perceptual Generative Adversarial Networks for Small Object Detection 2017-07-11  19:47:46   CVPR 20 ...

  9. SalGAN: Visual saliency prediction with generative adversarial networks

    SalGAN: Visual saliency prediction with generative adversarial networks 2017-03-17 摘要:本文引入了对抗网络的对抗训练 ...

  10. Generative Adversarial Networks,gan论文的畅想

    前天看完Generative Adversarial Networks的论文,不知道有什么用处,总想着机器生成的数据会有机器的局限性,所以百度看了一些别人 的看法和观点,可能我是机器学习小白吧,看完之 ...

随机推荐

  1. [转帖] Linux命令拾遗-网络抓包工具

    https://www.cnblogs.com/codelogs/p/16060684.html 简介# Linux中有很多抓包工具,如ngrep.tcpdump与tshark等,它们有很多用法与使用 ...

  2. Sysbench简单测试数据库性能

    摘要 先进行了一个PG数据库的测试. Mysql数据库的测试稍后跟上. 紧接着上一篇的安装, 部分文件可能需要特定路径才可以. sysbench 测试的说明 一个参数 这里稍微说一下参数的问题 sys ...

  3. uni-app事件冒泡 如何解决事件冒泡 推荐tap事件

    冒泡事件## 冒泡事件 <view class="max-box" @tap="waimian"> 外面 <view class=" ...

  4. elementui更改Slider 滑块颜色样式

    <div class="con-slider"> <el-slider :disabled="disabledFlag" @change=&q ...

  5. vue中使用refs出现undefined的解决方法

    最近遇见一个情况, 在methods:{}中的某个方法, 通过父组件去调用子组件的一个方法:this.$refs.xxx 打印出来的却是undefined? 因为: 是如果在DOM结构中的某个DOM节 ...

  6. 【JS 逆向百例】建筑市场监管平台企业数据

    声明 本文章中所有内容仅供学习交流,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关. 逆向目标 目标:住房和城乡建设部&全国建筑市场监管公共服务平台的企业数据 主页:http: ...

  7. 洛谷P3101 题解

    输入格式 第 \(1\) 行,三个整数 \(m,n,t\). 第 \(2\) 到 \(m+1\) 行,\(m\) 个整数,表示海拔高度. 第 \(2+m\) 到 \(2m+1\) 行,\(m\) 个整 ...

  8. Windows 堆管理机制 [3] Windows XP SP2 – Windows 2003 版本

    3. Windows XP SP2 – Windows 2003 3.1 环境准备 环境 环境准备 虚拟机 32位Windows XP SP2 \32位Windows XP SP3 调试器 OllyD ...

  9. TienChin 渠道管理-更新渠道接口开发

    ChannelController /** * 修改渠道 */ @PreAuthorize("hasPermission('tienchin:channel:edit')") @L ...

  10. 在数据增强、蒸馏剪枝下ERNIE3.0分类模型性能提升

    在数据增强.蒸馏剪枝下ERNIE3.0模型性能提升 项目链接: https://aistudio.baidu.com/aistudio/projectdetail/4436131?contributi ...