NLP任务梳理总结
NLP任务
前处理任务
前处理任务的结果可作为下游任务输入的额外特征。
POSTa(词性标注)
往模型中输入句子,对每一个token进行词性的识别。
识别出的词性可以用于下游任务。
Word Segmentation(分词)
对于英文,显然句子有天然的分词。所以分词通常是针对中文句子。
分词之后,模型的输入就可以以词汇作单位,而不再以字作单位。
以下面例子做说明:
将一个句子按字输入模型,训练模型来对每个字来进行二分类决定每个字的对应位置输出N或者Y(N/Y是词的边界标识)
Parsing(语义分析)
给定句子产生树状结构——句子的语法结构。
Coreference Rosolution(共指消解)
从一段文章或者一段对话中找出指代同一个人或事物的所有词汇。
具体NLP任务
Summarization(文本摘要)
抽取式摘要:基于二分类任务,每个句子分开考虑。
衡量文章中句子应不应该放到摘要里面,但是这么做远远不够。
生成式摘要:属于seq2seq模型,输入长文本,模型用自己的语言进行短摘要的生成。
模型的copy能力:输入文本序列和输出摘要很有可能有很多共用词汇,这些共用词汇经过模型的修改整合形成摘要的文本。因此模型需要增加输入copy能力,怎么实现?Pointer network(指针网络)。
Machine Translation(机器翻译)
seq2seq
audio2seq
audio2audio
Grammer Error Correction(语法纠正)
seq2seq?
不,杀鸡焉用牛刀。
seq2class
输入句子,做分类,输出要对token要做的动作的标识(C/R/A/D)。
C——复制,保持不变
A——在后面增加词汇
R——置换,把词换个时态或者换成别的词
D——删除
Sentiment Classfication(情感分类)
输入一段文本或者评论,训练模型,输出文本的情感分类(正面/负面)。
seq2class
Stance Detection(立场侦测)
seq2class
通过一则博文或者文章以及其下的评论回复来进行评论者所处立场的判断。
立场通常有四类:SDQC(Support、Denying、Querying and Commenting)。
立场侦测经常被用于事实预测:
事实预测:
seq2class
根据新闻消息或者博文的评论立场以及外部的知识判断消息或文章内容的真实性。
Natural Language Inference(自然语言推理)
seq2class
推理模型的文本输入:premise(前提) + hypothesis(假设)
模型输出:对假设是否成立的判断结果,矛盾/包含(可推得)/中立(contradiction/entailment/neutral)
Question Answering(问答)
传统的基于检索的问答系统
简单的(模组少):
问题处理——对问题进行格式化,检测其答案的类别
检索资料库——进行文档、文章的检索选择
答案的生成和评估——从候选文章中抽取答案,抽取的答案根据第一步检测到的答案类别评估其正确性
复杂的(模组多):
和简单架构的区别:
问题处理——模组更多
候选答案生成——综合检索文章得到的候选答案和从自带的有结构资料库中调取的答案
答案评分
融合对等答案,返回答案及其可信度
基于深度学习的QA
seq2seq
输入问题文本和外部结构化/无结构化的知识(大多来自搜索引擎),训练模型得到问题的答案。
但是要实现直接向模型输入问题和外部知识就生成问题答案还有非常长的一段路要走。目前我们常做的只是从文本中抽取答案。
抽取式QA:
seq2seq
答案就在背景文章里面,向模型输入背景文章和问题,其实就是做通常意义上的阅读理解,模型产生抽取的答案文本在文章中的 start position 和 end position。
Dialogue(对话)
对话涉及到自然语言生成(NLG)和自然语言理解(NLU)
Chatting(闲聊)
seq2seq
聊天都是有背景的,所以模型的输入应该是增量式的,模型的输出是根据之前的对话内容产生的。
根据对话的需求可以进行定制:
Task-oriented(任务导向的对话)
seq2seq
需要实现一定的功能,比如提供订票、订餐厅、订酒店等服务
系统架构
State Tracker记录当前对话的状态
知识图
NER(命名实体识别)
seq2class
识别出句子中的人名、地名、组织等实体
RE(关系抽取)
seq2class
输入文本和文本中两个实体,训练模型得到两个实体之间的关系
关系的种类基本是固定的,因此关系抽取的模型往往是去做一个复杂的分类任务
综合任务
综合任务的意义:看模型是否是真的“理解”了人类语言,能“举一反三”
GLUE
分为三大类
- 文本分类(语法错误检查、文本情感分析)
- 文本相似度计算
- 自然语言推理
Super GLUE
包含8个NLP任务,大多和QA有关
DecaNLP
同一个模型解决10个NLP任务
怎么实现?往QA的方向改造这些任务
总结
根据这些NLP任务的输入输出,把这些任务和任务相关的一些技术手段进行梳理
one on one
seq2class
- 情感分析
- 立场检测
- 文本内容辨真伪
- 文本意图识别
- 对话决策
seq2tokenclass
- 词性标注
- 分词
- 抽取式摘要
- 命名实体识别
seq2seq
- 抽象式摘要
- 机器翻译
- 文本语法矫正
- 自然语言生成
n on one
seq2class
- 自然语言推理
- 搜索引擎
- 关系抽取
copy from input
- 抽取式QA
seq2seq
- 常规QA
- 任务导向对话
- 聊天机器人
- State Tracker
others
- 语义分析
- 共指消解
NLP任务梳理总结的更多相关文章
- ICLR2021对比学习(Contrastive Learning)NLP领域论文进展梳理
本文首发于微信公众号「对白的算法屋」,来一起学AI叭 大家好,卷王们and懂王们好,我是对白. 本次我挑选了ICLR2021中NLP领域下的六篇文章进行解读,包含了文本生成.自然语言理解.预训练语言模 ...
- 【NLP】十分钟快览自然语言处理学习总结
十分钟学习自然语言处理概述 作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文 ...
- 【NLP】前戏:一起走进条件随机场(一)
前戏:一起走进条件随机场 作者:白宁超 2016年8月2日13:59:46 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务中都有 ...
- 【NLP】蓦然回首:谈谈学习模型的评估系列文章(一)
统计角度窥视模型概念 作者:白宁超 2016年7月18日17:18:43 摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量. ...
- NLP点滴——文本相似度
[TOC] 前言 在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性.而有了文本之间相似性的度 ...
- 【NLP】基于自然语言处理角度谈谈CRF(二)
基于自然语言处理角度谈谈CRF 作者:白宁超 2016年8月2日21:25:35 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务 ...
- 【NLP】基于机器学习角度谈谈CRF(三)
基于机器学习角度谈谈CRF 作者:白宁超 2016年8月3日08:39:14 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务中都 ...
- 【NLP】基于统计学习方法角度谈谈CRF(四)
基于统计学习方法角度谈谈CRF 作者:白宁超 2016年8月2日13:59:46 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务 ...
- 【NLP】条件随机场知识扩展延伸(五)
条件随机场知识扩展延伸 作者:白宁超 2016年8月3日19:47:55 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务中都有应 ...
随机推荐
- ASP.NET Core 配置与获取
目录 1,来自字典 2,来自配置文件 3,层次结构 4,映射 ASP.NET Core 中,可以使用 ConfigurationBuilder 对象来构建. 主要分为三部:配置数据源 -> Co ...
- vue项目Windows Server服务器部署IIS设置Url重写
1.将vue项目使用npm run build命令打包后将dist文件夹内的文件全部拷贝到服务器. 2.IIS添加应用程序池,.NET CLR版本选择无托管代码 3.添加网站,应用程序池选择刚刚添加的 ...
- Docker实战(6): 导出docker镜像离线包
前言 离线环境安装Docker 镜像,我已知两种情况,以下操作我将采用在可访问外网的机器上通过镜像迁移的方式来给离线环境安装. 环境:服务器node1可访问外网.服务器node2无法访问外网 两台机器 ...
- Docker端口映射及创建镜像演示(二)
Docker暴露容器方法 第一种:将容器中的一个端口映射成宿主机中的一个随机端口 第二种:将容器中的一个端口映射成宿主机中的一个端口 第三种:将容器中的一个端口映射成宿主机中的一个特定网卡上的随机端口 ...
- 操作系统(AIX)双因素身份认证解决方案-中科恒伦CKEY DAS
一.场景分析 操作系统是管理计算机硬件与软件资源的计算机程序,用于工作中的进程管理.存储管理.设备管理.文件管理.作业管理等,十分重要,安全等级极高! 二.问题分析 1.密码设置简单,非常容易被撞 ...
- noSql 的应用场景简述
选型一定要结合实际情况而不是照本宣科,比如: 企业发展之初,明明一个关系型数据库就能搞定且支撑一年的架构,搞一套大而全的技术方案出来 有一些数据条件查询多,更适合使用ElasticSearch做存储降 ...
- 绝了!这款工具让SpringBoot不再需要Controller、Service、DAO、Mapper!
Dataway介绍 Dataway 是基于 DataQL 服务聚合能力,为应用提供的一个接口配置工具,使得使用者无需开发任何代码就配置一个满足需求的接口.整个接口配置.测试.冒烟.发布,一站式都通过 ...
- 对Elasticsearch生命周期的思考
什么是es索引的生命周期?有啥用?可以怎么用?用了有什么好处呢? 在现实的生产环境中有没有觉得自己刚开始设计的索引的分片数刚刚好,但是随着时间的增长,数据量增大,增长速度增大的情况下,你的es索引的设 ...
- Linux MMC 驱动子系统简述(源码剖析)
1. Linux MMC 驱动子系统 块设备是Linux系统中的基础外设之一,而 MMC/SD 存储设备是一种典型的块设备.Linux内核设计了 MMC子系统,用于管理 MMC/SD 设备. MMC ...
- 这里有一份Java程序员的珍藏书单,请您注意查收
前言 不要因为迷茫,而停止了脚下前进的路.给大家推荐一份Java程序员必看的书单,豆瓣评分都挺不错的,每一本都值得去读,都值得去收藏,加油呀 本文已经收录到github https://github. ...