摘要:本文是对ACL2021 NER 模块化交互网络用于命名实体识别这一论文工作进行初步解读。

本文分享自华为云社区《ACL2021 NER | 模块化交互网络用于命名实体识别》,作者: JuTzungKuei 。

论文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.

链接:https://aclanthology.org/2021.acl-long.17.pdf

代码:无

0、摘要

  • 现有NER模型缺点
    • 基于序列标注的NER模型:长实体识别不佳,只关注词级信息
    • 基于分段的NER模型:处理分段,而非单个词,不能捕获分段中的词级依赖关系
  • 边界检测和类型预测可以相互配合,两个子任务可共享信息,相互加强
  • 提出模块化交互网络模型MIN(Modularized Interaction Network)
    • 同时利用段级信息和词级依赖关系
    • 结合一种交互机制,支持边界检测和类型预测之间的信息共享
  • 三份基准数据集上达到SOTA

1、介绍

  • NER:查找和分类命名实体,person (PER), location
    (LOC) or organization (ORG),下游任务:关系抽取、实体链接、问题生成、共引解析
  • 两类方法
    • 序列标注 sequence labeling:可捕获词级依赖关系
    • 分段 segment(a span of words):可处理长实体
  • NER:检测实体边界和命名实体的类型,
    • 分成两个子任务:边界检测、类型预测
    • 两个任务之间是相关的,可以共享信息
  • 举栗:xx来自纽约大学
    • 如果知道大学是实体边界,更可能会预测类型是ORG
    • 如果知道实体有个ORG类型,更可能会预测到“大学”边界
  • 上述两个常用方法没有在子任务之间共享信息
    • 序列标注:只把边界和类型当做标签
    • 分段:先检测片段,再划分类型
  • 本文提出MIN模型:NER模块、边界模块、类型模块、交互机制
    • 指针网络作为边界模块的解码器,捕捉每个词的段级信息
    • 段级信息和词级信息结合输入到序列标注模型
    • 将NER划分成两个任务:边界检测、类型预测,并使用不同的编码器
    • 提出一个相互加强的交互机制,所有信息融合到NER模块
    • 三个模块共享单词表示,采用多任务训练
  • 主要贡献:
    • 新模型:MIN,同时利用段级信息和词级依赖
    • 边界检测和类型预测分成两个子任务,结合交互机制,使两个子任务信息共享
    • 三份基准数据集达到SOTA

2、方法

最终NER输出:H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b
H^{Bdy}HBdy表示边界模块输出,H^{Type}HType表示类型模块输出,H^{Seg}HSeg表示分段信息

    • CRF解码:转移概率 + 发射概率
  • 边界模块:双向LSTM编码H^{Bdy}HBdy,单向LSTM解码
    • 解码:
      s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj​=hj−1Bdy​+hjBdy​+hj+1Bdy
      d_j=LSTM(s_j, d_{j-1})dj​=LSTM(sj​,dj−1​)
    • Biaffine Attention机制:

  • 类型模块:BiLSTM + CRF
  • 交互机制:
    • self attention 得到标签增强的边界H^{B-E}HBE,类型H^{T-E}HTE
    • Biaffine Attention 计算得分 \alpha^{B-E}αBE
    • 交互后的边界:r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riBE​=∑j=1nαi,jBEhjTE
    • 更新后的边界:\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy​=[hiBE​,riBE​]
    • 更新后的类型:\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType​=[hiTE​,riTE​]
  • 联合训练:多任务
    • 每个任务的损失函数

    • 最终损失函数:\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=LNER+LType+LBdy

3、结果

  • Baseline (sequence labeling-based)
    • CNN-BiLSTM-CRF
    • RNN-BiLSTM-CRF
    • ELMo-BiLSTM-CRF
    • Flair (char-BiLSTM-CRF)
    • BERT-BiLSTM-CRF
    • HCRA (CNN-BiLSTM-CRF)
  • Baseline (segment-based)
    • BiLSTM-Pointer
    • HSCRF
    • MRC+BERT
    • Biaffine+BERT

号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。

点击关注,第一时间了解华为云新鲜技术~

跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别的更多相关文章

  1. 神经网络结构在命名实体识别(NER)中的应用

    神经网络结构在命名实体识别(NER)中的应用 近年来,基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展.作为NLP领域的基础任务-命名实体识别(Named Entity Recognit ...

  2. 【NER】对命名实体识别(槽位填充)的一些认识

    命名实体识别 1. 问题定义 广义的命名实体识别是指识别出待处理文本中三大类(实体类.时间类和数字类).七小类(人名.机构名.地名.日期.货币和百分比)命名实体.但实际应用中不只是识别上述所说的实体类 ...

  3. 【NLP学习其一】什么是命名实体识别NER?

    命名实体识别 概念 命名实体识别(Named Entity Recognition,简称NER) , 是指识别文本中具有特定意义的词(实体),主要包括人名.地名.机构名.专有名词等等,并把我们需要识别 ...

  4. NLP入门(五)用深度学习实现命名实体识别(NER)

    前言   在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...

  5. NLP入门(四)命名实体识别(NER)

      本文将会简单介绍自然语言处理(NLP)中的命名实体识别(NER).   命名实体识别(Named Entity Recognition,简称NER)是信息提取.问答系统.句法分析.机器翻译等应用领 ...

  6. 【神经网络】神经网络结构在命名实体识别(NER)中的应用

    命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图.它是NLP领域中一些复杂任务(例如关系抽取,信息检索等)的 ...

  7. 2. 知识图谱-命名实体识别(NER)详解

    1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言 在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识 ...

  8. 命名实体识别(NER)

    一.任务 Named Entity Recognition,简称NER.主要用于提取时间.地点.人物.组织机构名. 二.应用 知识图谱.情感分析.机器翻译.对话问答系统都有应用.比如,需要利用命名实体 ...

  9. NLP入门(八)使用CRF++实现命名实体识别(NER)

    CRF与NER简介   CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机 ...

  10. 『深度应用』NLP命名实体识别(NER)开源实战教程

    近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务—命名实体识别(Named Entity Recogni ...

随机推荐

  1. RL 基础 | Value Iteration 的收敛性证明

    (其实是专业课作业 感觉算法岗面试可能会问,来存一下档) 目录 问题:证明 Value Iteration 收敛性 0 Definitions - 定义 1 Bellman operator is a ...

  2. 什么是Kubernetes

    什么是Kubernetes Kubernetes 概述 1.K8S 是什么? K8S 的全称为 Kubernetes (K12345678S),PS:"嘛,写全称也太累了吧,不如整个缩写&q ...

  3. [C++]vector的基本的用法

    [vector/容器/向量/动态数组]的基本的用法 容器的定义 向量/容器(Vector)是一个封装了动态大小数组的顺序容器(Sequence Container). 跟任意其它类型容器一样,它能够存 ...

  4. 产品代码都给你看了,可别再说不会DDD(十):CQRS

    这是一个讲解DDD落地的文章系列,作者是<实现领域驱动设计>的译者滕云.本文章系列以一个真实的并已成功上线的软件项目--码如云(https://www.mryqr.com)为例,系统性地讲 ...

  5. .net 温故知新【13】:Asp.Net Core WebAPI 使用依赖注入DI

    一.使用DI注入 在之前的文章中已经讲过DI的概念(.net 温故知新:[7]IOC控制反转,DI依赖注入),基于控制台程序演示了DI依赖注入的使用,基于Microsoft.Extensions.De ...

  6. 关于RS485通讯TVS器件选择的经验

    先说经验结论 如果你的RS485用于频繁热拔插, 比如作为手持终端使用, 且手持器与目标板非隔离, 那么使用6.8CA可能是更好的选择. 因为有热拔插会产生浪涌, 而且在非隔离的场合有些工业设备接地也 ...

  7. windows10 使用 USB 无线网卡的热点功能

    一.概述 在某宝上买了一个 COMFAST CF-727B 的无线模块,由于笔记本电脑一直使用不上,所以放了很久.多年后我来到了一个公司,遇到了我此生最想吐槽的网管,简直不敢想象几十人的办公室,居然能 ...

  8. 【结对作业】 第一周 | 学习体会day05

    实现了单条地铁线路的直达 进行了页面的优化,实现了侧边栏功能 并且对第二天(今天)的任务进行了规划.

  9. Oracle ADG容灾端部署Rman备份的一些实践经验

    随着数据库中数据量的不断增加.业务的复杂性提高.各种政策颁布的系统容灾等级要求,数据库备份的工作及备份文件的有效性及备份文件的管理变得愈发重要.在Oracle数据库中提供了强大的备份和恢复工具,其中R ...

  10. ABAP 标准程序选择屏增强 文本显示异常问题处理 MB52 示例 INITIALIZATION. "变量参数:%_ + 屏幕选择字段变量 + _%_APP_%-TEXT %_SSKH_%_APP_%-TEXT = '所属客户'.

    数据筛选 文本 INITIALIZATION. "变量参数:%_ + 屏幕选择字段变量 + _%_APP_%-TEXT   %_SSKH_%_APP_%-TEXT = '所属客户'.