跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别
摘要:本文是对ACL2021 NER 模块化交互网络用于命名实体识别这一论文工作进行初步解读。
本文分享自华为云社区《ACL2021 NER | 模块化交互网络用于命名实体识别》,作者: JuTzungKuei 。
论文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.
链接:https://aclanthology.org/2021.acl-long.17.pdf
代码:无

0、摘要
- 现有NER模型缺点
- 基于序列标注的NER模型:长实体识别不佳,只关注词级信息
- 基于分段的NER模型:处理分段,而非单个词,不能捕获分段中的词级依赖关系
- 边界检测和类型预测可以相互配合,两个子任务可共享信息,相互加强
- 提出模块化交互网络模型MIN(Modularized Interaction Network)
- 同时利用段级信息和词级依赖关系
- 结合一种交互机制,支持边界检测和类型预测之间的信息共享
- 三份基准数据集上达到SOTA
1、介绍
- NER:查找和分类命名实体,person (PER), location
(LOC) or organization (ORG),下游任务:关系抽取、实体链接、问题生成、共引解析 - 两类方法
- 序列标注 sequence labeling:可捕获词级依赖关系
- 分段 segment(a span of words):可处理长实体
- NER:检测实体边界和命名实体的类型,
- 分成两个子任务:边界检测、类型预测
- 两个任务之间是相关的,可以共享信息
- 举栗:xx来自纽约大学
- 如果知道大学是实体边界,更可能会预测类型是ORG
- 如果知道实体有个ORG类型,更可能会预测到“大学”边界
- 上述两个常用方法没有在子任务之间共享信息
- 序列标注:只把边界和类型当做标签
- 分段:先检测片段,再划分类型
- 本文提出MIN模型:NER模块、边界模块、类型模块、交互机制
- 指针网络作为边界模块的解码器,捕捉每个词的段级信息
- 段级信息和词级信息结合输入到序列标注模型
- 将NER划分成两个任务:边界检测、类型预测,并使用不同的编码器
- 提出一个相互加强的交互机制,所有信息融合到NER模块
- 三个模块共享单词表示,采用多任务训练
- 主要贡献:
- 新模型:MIN,同时利用段级信息和词级依赖
- 边界检测和类型预测分成两个子任务,结合交互机制,使两个子任务信息共享
- 三份基准数据集达到SOTA
2、方法

- NER模块:RNN-BiLSTM-CRF,引用Neural architectures for named entity recognition
- 词表示:word(BERT) + char(BiLSTM)
- BiLSTM编码:双向LSTM,交互机制代替直接级联,门控函数动态控制

最终NER输出:H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b
H^{Bdy}HBdy表示边界模块输出,H^{Type}HType表示类型模块输出,H^{Seg}HSeg表示分段信息
- CRF解码:转移概率 + 发射概率
- 边界模块:双向LSTM编码H^{Bdy}HBdy,单向LSTM解码
- 解码:
s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj=hj−1Bdy+hjBdy+hj+1Bdy
d_j=LSTM(s_j, d_{j-1})dj=LSTM(sj,dj−1) - Biaffine Attention机制:


- 类型模块:BiLSTM + CRF
- 交互机制:
- self attention 得到标签增强的边界H^{B-E}HB−E,类型H^{T-E}HT−E
- Biaffine Attention 计算得分 \alpha^{B-E}αB−E
- 交互后的边界:r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riB−E=∑j=1nαi,jB−EhjT−E
- 更新后的边界:\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy=[hiB−E,riB−E]
- 更新后的类型:\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType=[hiT−E,riT−E]
- 联合训练:多任务
- 每个任务的损失函数

- 最终损失函数:\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=LNER+LType+LBdy
3、结果
- Baseline (sequence labeling-based)
- CNN-BiLSTM-CRF
- RNN-BiLSTM-CRF
- ELMo-BiLSTM-CRF
- Flair (char-BiLSTM-CRF)
- BERT-BiLSTM-CRF
- HCRA (CNN-BiLSTM-CRF)
- Baseline (segment-based)
- BiLSTM-Pointer
- HSCRF
- MRC+BERT
- Biaffine+BERT

号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。
跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别的更多相关文章
- 神经网络结构在命名实体识别(NER)中的应用
神经网络结构在命名实体识别(NER)中的应用 近年来,基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展.作为NLP领域的基础任务-命名实体识别(Named Entity Recognit ...
- 【NER】对命名实体识别(槽位填充)的一些认识
命名实体识别 1. 问题定义 广义的命名实体识别是指识别出待处理文本中三大类(实体类.时间类和数字类).七小类(人名.机构名.地名.日期.货币和百分比)命名实体.但实际应用中不只是识别上述所说的实体类 ...
- 【NLP学习其一】什么是命名实体识别NER?
命名实体识别 概念 命名实体识别(Named Entity Recognition,简称NER) , 是指识别文本中具有特定意义的词(实体),主要包括人名.地名.机构名.专有名词等等,并把我们需要识别 ...
- NLP入门(五)用深度学习实现命名实体识别(NER)
前言 在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...
- NLP入门(四)命名实体识别(NER)
本文将会简单介绍自然语言处理(NLP)中的命名实体识别(NER). 命名实体识别(Named Entity Recognition,简称NER)是信息提取.问答系统.句法分析.机器翻译等应用领 ...
- 【神经网络】神经网络结构在命名实体识别(NER)中的应用
命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图.它是NLP领域中一些复杂任务(例如关系抽取,信息检索等)的 ...
- 2. 知识图谱-命名实体识别(NER)详解
1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言 在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识 ...
- 命名实体识别(NER)
一.任务 Named Entity Recognition,简称NER.主要用于提取时间.地点.人物.组织机构名. 二.应用 知识图谱.情感分析.机器翻译.对话问答系统都有应用.比如,需要利用命名实体 ...
- NLP入门(八)使用CRF++实现命名实体识别(NER)
CRF与NER简介 CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机 ...
- 『深度应用』NLP命名实体识别(NER)开源实战教程
近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务—命名实体识别(Named Entity Recogni ...
随机推荐
- Isito 入门(九):安全认证
本教程已加入 Istio 系列:https://istio.whuanle.cn 目录 7,认证 Peer Authentication PeerAuthentication 的定义 实验 Reque ...
- GCD Inside: GCD 宏
1 __OBJC__ __OBJC__宏的定义在 GCD 源码中找不到,它定义在 LLVM 的源码中: // initPreprocessor.cpp static void InitializeSt ...
- (Good topic)快慢指针:链表的中间结点 (3.23leetcode每日打卡)
给定一个带有头结点 head 的非空单链表,返回链表的中间结点. 如果有两个中间结点,则返回第二个中间结点. 示例 1: 输入:[1,2,3,4,5]输出:此列表中的结点 3 (序列化形式:[3, ...
- AtCoder Beginner Contest 329 (ABC329)
A. Spread 不说了,代码. B. Next 不说了,代码. C. Count xxx Description 给定一个长度为 \(N\) 的字符串 \(S\),求 \(S\) 中非空连续,并且 ...
- 音色逼真、韵律自然的AI人声克隆限时福利!
声音,为数字人注入灵魂. 2023云栖大会上,阿里云视频云接受了CCTV-2财经频道的采访,分享并演示了如何利用云端智能剪辑,一站式完成数字人渲染及视频精编二创. 正如视频开头所呈现的AI重现演员&q ...
- 最好用的oa办公系统?
OA办公系统是一种集成办公自动化.协同办公.信息管理等功能于一体的软件系统,旨在提高办公效率,优化流程管理,提供更好的团队协作和信息共享.下面将详细介绍几个目前市场上认为较为优秀的OA办公系统. 一. ...
- 马云说的AI电商时代是什么
这两天非常火的就是马老师说的,我们已经进入了AI的电商时代.相信电商时代大家很容易理解,换一个简单的方式来说就是网上购物. AI相信大家已经很熟悉了,就是人工智能.早在十年前其实已经有AI人工智能的概 ...
- Qt官网开源最新版下载安装保姆级教程
什么是Qt(了解请跳过) Qt 基本介绍 Qt 是一个跨平台C++图形用户界面应用程序开发框架. 有关 Qt 的详细介绍,可以参考这篇文章: Qt是什么?Qt简介(非常全面) - 李清龙的文章 - 知 ...
- HDFS存储原理
冗余数据保存问题: 一个数据块默认被保存三次 好处:1.加快数据传输错误(假如要同时访问数据块1 因为他冗余存储就会有3份 所以会加快数据传输速度) 2.很容易检查数据错误 3.保证数据可靠性 数据的 ...
- tensorflow GPU版本配置加速环境
import tensorflow as tf tf.test.is_gpu_available() 背景 环境:Anaconda .tensorflow_gpu==1.4.0 (这里就用1.4.0版 ...