摘要:本文是对ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别这一论文工作进行初步解读。

本文分享自华为云社区《ACL2021 NER | BERT化隐马尔可夫模型用于多源弱监督命名实体识别》,作者: JuTzungKuei 。

论文:Li Yinghao, Shetty Pranav, Liu Lucas, Zhang Chao, Song Le. BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition[A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 6178–6190.

链接:https://aclanthology.org/2021.acl-long.482.pdf

代码:https://github.com/Yinghao-Li/CHMM-ALT

0、摘要

  • 研究内容:使用多个弱监督数据的噪音标签学习NER
  • 噪音数据:不全、不准、矛盾
  • 提出一个条件隐马尔可夫模型(CHMM:conditional hidden Markov model)
    • 利用BERT的上下文表示能力,增强了经典的HMM模型
    • 从BERT嵌入中学习词的转移和发射概率,推断潜在的真标签
  • 用交替训练方法(CHMM-ALT)进一步完善CHMM
    • 用CHMM推导出的标签对BERT-NER模型进行微调
    • BERT-NER的输出作为额外的弱源来训练CHMM
  • 四份数据集上达到SOTA

1、介绍

  • NER是许多下游信息抽取任务的基础任务:事件抽取、关系抽取、问答
    • 有监督、需要大量标注数据
    • 许多领域有知识源:知识库、领域词典、标注规则
    • 可以用来匹配语料库,从多角度,快速生成大规模的噪声训练数据
  • 远程监督NER:只使用知识库作为弱监督,未使用多源标注的互补信息
  • 现有利用HMM方法,有局限性:one-hot词向量 或 不建模
  • 贡献:
    • CHMM:聚合多源弱标签
    • 交替训练方法CHMM-ALT:轮流训练CHMM和BERT-NER,利用彼此的输出进行多回路,以优化多源弱监督NER性能
    • 四份基准数据集获得SOTA

2、方法

  • CHMM-ALT 训练两个模型:多源标签聚合器CHMM和BERT-NER 模型,轮流作为彼此的输出
    • 阶段I:CHMM根据K个源x_{1:K}^{(1:T)}x1:K(1:T)​,生成一个去噪标签y^{*(1:T)}y∗(1:T),微调BERT-NER模型输出\widetilde{y}^{(1:T)}y​(1:T),作为额外的标注源,添加到原始弱标签集合x_{1:K+1}^{(1:T)} = \{x_{1:K}^{(1:T)} , \widetilde{y}^{(1:T)}\}x1:K+1(1:T)​={x1:K(1:T)​,y​(1:T)}
    • 阶段II:CHMM和BERT-NER在几轮循环中互相改进,每轮循环,先训练CHMM,后微调BERT-NER,更新前者的输入
    • CHMM 提高Precision,BERT-NER提高Recall

  • 隐马尔可夫模型
    • 不细解

3、结果

号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。

 

点击关注,第一时间了解华为云新鲜技术~

跟我读论文丨ACL2021 NER BERT化隐马尔可夫模型用于多源弱监督命名实体识别的更多相关文章

  1. 【NLP学习其一】什么是命名实体识别NER?

    命名实体识别 概念 命名实体识别(Named Entity Recognition,简称NER) , 是指识别文本中具有特定意义的词(实体),主要包括人名.地名.机构名.专有名词等等,并把我们需要识别 ...

  2. 2. 知识图谱-命名实体识别(NER)详解

    1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言 在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识 ...

  3. 基于bert的命名实体识别,pytorch实现,支持中文/英文【源学计划】

    声明:为了帮助初学者快速入门和上手,开始源学计划,即通过源代码进行学习.该计划收取少量费用,提供有质量保证的源码,以及详细的使用说明. 第一个项目是基于bert的命名实体识别(name entity ...

  4. 【NER】对命名实体识别(槽位填充)的一些认识

    命名实体识别 1. 问题定义 广义的命名实体识别是指识别出待处理文本中三大类(实体类.时间类和数字类).七小类(人名.机构名.地名.日期.货币和百分比)命名实体.但实际应用中不只是识别上述所说的实体类 ...

  5. 神经网络结构在命名实体识别(NER)中的应用

    神经网络结构在命名实体识别(NER)中的应用 近年来,基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展.作为NLP领域的基础任务-命名实体识别(Named Entity Recognit ...

  6. 用深度学习做命名实体识别(六)-BERT介绍

    什么是BERT? BERT,全称是Bidirectional Encoder Representations from Transformers.可以理解为一种以Transformers为主要框架的双 ...

  7. 基于BERT预训练的中文命名实体识别TensorFlow实现

    BERT-BiLSMT-CRF-NERTensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuni ...

  8. NLP入门(五)用深度学习实现命名实体识别(NER)

    前言   在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具--NLTK和Stanford NLP.在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现N ...

  9. NLP入门(四)命名实体识别(NER)

      本文将会简单介绍自然语言处理(NLP)中的命名实体识别(NER).   命名实体识别(Named Entity Recognition,简称NER)是信息提取.问答系统.句法分析.机器翻译等应用领 ...

  10. 【神经网络】神经网络结构在命名实体识别(NER)中的应用

    命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图.它是NLP领域中一些复杂任务(例如关系抽取,信息检索等)的 ...

随机推荐

  1. 命令vue inspect > output.js报错:在此系统上禁止运行脚本

    用的这个命令去看output.js文件,结果报错. 解决方案是去对应目录下删掉vue.ps1就OK了 .

  2. 通过HTML和JavaScript实现随机抽取幸运员工

    需求描述: 公司经常会要求IT部门做一个随机抽取员工页面,今天我们通过HTML和JavaScript来实现 HTML 结构 首先,我们需要编写 HTML 代码来定义页面结构和元素.下面是 HTML 代 ...

  3. Hyper-V中的虚拟机(Centos)安装FTP服务

    linux上是否装上了ftp服务命令: rpm -qa | grep vsftpd ,若没有安装(无显示版本号)则进行下一步 安装ftp服务,命令: yum -y install ftp vsftpd ...

  4. 中兴GoldenDB(MYSQL)营运商SQL优化案例(超复杂SQL)

    陆老师好久没找我,今天他在营运商遇到2条性能慢的SQL,说找了好多专家老手看了都优化不了,然后就找到我打算给我玩玩. 第一次接触营运商行业的SQL,妈呦还真的复杂  SQL1: SELECT WORK ...

  5. OpenGL 基础光照详解

    1. 光照 显示世界中,光照环境往往是相对复杂的.因为假设太阳作为世界的唯一光源,那么太阳光照在物体A上A将阳光进行反射后,A又做为一个新的光源共同作用于另一个物体B.所以于B来讲光源是复杂的.然而这 ...

  6. node 实现上传 和 下载 文件接口 简易版

    var express = require('express');var fs = require('fs');var path = require('path');var multipart = r ...

  7. linux锁定脚本防止脚本重复运行

    问题描述:设置在定时任务中的脚本一定要注意防止脚本重复执行,要不然会带来一些想象不到的结果. 方式一:使用锁定文件的方式来进行防止脚本重复运行,类似数据库socket文件,但是这种情况有一种弊端就是, ...

  8. 聊聊分布式 SQL 数据库Doris(三)

    详细内容阅读: Apache Doris 分区分桶新功能 与 数据划分. 在此基础上做总结与延伸. 在 Doris 的存储引擎规则: 表的数据是以分区为单位存储的,不指定分区创建时,默认就一个分区. ...

  9. Python 潮流周刊#28:两种线程池、四种优化程序的方法

    你好,我是猫哥.这里每周分享优质的 Python.AI 及通用技术内容,大部分为英文.本周刊开源,欢迎投稿.另有电报频道作为副刊,补充发布更加丰富的资讯. 产品推荐 Walles.AI 是一款适用于所 ...

  10. 银河麒麟V10(飞腾ARM CPU)安装KVM踩坑记

    服务器配置信息 品牌:GreetWall CPU:飞腾FT-2000+/64 64bit 操作系统:Linux-4.19.90-24.4.v2101.ky10.aarch64-with-kylin-1 ...