​自然语言处理(NLP)是人工智能领域一个十分重要的研究方向。NLP研究的是实现人与计算机之间用自然语言进行有效沟通的各种理论与方法。

本文整理了NLP领域常用的16个术语,希望可以帮助大家更好地理解这门学科。

1.自然语言处理(NLP)

自然语言处理,简单来说就是构建人与机器之间沟通的桥梁,以实现人机交流的目的。

自然语言处理有两大核心任务:自然语言理解(NLU)与自然语言生成(NLG)。

2.Attention 机制

Attention的本质是从关注全部到关注重点。将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。

3.Encoder-Decoder 和 Seq2Seq

Encoder-Decoder是一类算法的统称,在这个框架下可以使用不同的算法来解决不同的任务。Encoder-Decoder很好的诠释了机器学习的核心思路:

将现实问题转化为数学问题,通过求解数学问题,从而解决现实问题。

Seq2Seq(是Sequence-to-Sequence的缩写),字面含义为:输入一个序列,输出另一个序列。这种结构最重要的地方在于输入序列和输出序列的长度是可变的。

4.词干提取与词形还原

词干提取(Stemming)是去除单词的前后缀得到词根的过程。词形还原(Lemmatisation)是将单词的复杂形态转变成最基础的形态。

5.分词(Tokenization)

分词是自然语言处理的基础任务,将句子、段落分解为字词单位,方便后续的处理与分析。

6.词性标注(Part Of Speech)

词性标注是自然语言处理过程中一项非常重要的基础工作。简单来说就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。

词性标注常用的4种方法分别为:基于规则、基于统计、基于规则+统计、基于深度学习。

7.成分句法分析

成分句法分析是指对输入的单词序列判断其构成是否合乎给定的语法,分析出合乎语法句子的句法结构。

8..词向量|词嵌入(Word Embedding)

词向量是自然语言处理中一个重要的环节,是一些语言处理模型的统称。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

9.Word2vec

Word2vec是词向量方式之一,是将词转化为可计算、结构化向量的过程。

CBOW和Skip-gram是Word2vec常用的两种训练模式。

10.依存句法分析(Constituency-based Parse Trees)

在自然语言处理中,用词与词之间的依存关系来描述语言结构的框架称为依存语法。利用依存句法进行句法分析是自然语言理解的重要技术之一。

11.自然语言生成(NLG)

自然语言生成主要是将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等,主要有两种形式:文本到语言的生成、数据到语言的生成。

NLG在情感分析、聊天机器人、语音识别、机器翻译领域有着广泛的应用。

12.自然语言理解(NLU)

自然语言理解就是希望机器具备人一样的语言理解能力,但是由于语言具有多样性、歧义性等多种原因,目前NLU还远达不到人类的表现。

13.自然语言处理工具包(NLT)

在自然语言处理领域,NLT是最常使用的一个Python库,包含Python模块,数据集和教程等内容。

14.Transformer

Transformer是一个完全基于注意力机制的编解码器模型,它抛弃了之前其它模型引入注意力机制后仍然保留的循环与卷积结构,而采用了自注意力(Self-attention)机制,在任务表现、并行能力和易于训练性方面都有大幅的提高。

15.文本挖掘(Text Mining)

文本挖掘主要是从数据中寻找有价值的信息,来发现或者解决一些实际问题。

16.命名实体识别(Named Entity Recognition)

命名实体识别(NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体的边界和类别。

曼孚科技:AI自然语言处理(NLP)领域常用的16个术语的更多相关文章

  1. 曼孚科技:AI算法领域常用的39个术语(下)

    算法是人工智能(AI)核心领域之一. 本文整理了算法领域常用的39个术语,希望可以帮助大家更好地理解这门学科. 本文为下半部分,上半部分见本账号上一篇文章. 19.迁移学习(Transfer Lear ...

  2. 曼孚科技:AI算法领域常用的39个术语(上)

    ​算法是人工智能(AI)核心领域之一. 本文整理了算法领域常用的39个术语,希望可以帮助大家更好地理解这门学科. 1. Attention 机制 Attention的本质是从关注全部到关注重点.将有限 ...

  3. 曼孚科技:AI机器学习领域常用的15个术语

    机器学习是人工智能(AI)的核心,是使计算机具有智能的根本途径.​ 本文整理了一下机器学习领域常用的15个术语,希望可以帮助大家更好的理解这门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多个领 ...

  4. 曼孚科技:AI语音交互领域常用的4个术语

    ​语音交互是基于语音输入的新一代交互模式,比较典型的应用场景是各类语音助手. 本文整理了语音交互领域常用的4个术语,希望可以帮助大家更好地理解这门学科. 1. 语音合成标记语言(SSML) 语音合成标 ...

  5. 破局AI落地难,数据标注行业需率先变革丨曼孚科技

    ​2019年,国内人工智能领域的投融资热情大幅降低,相当数量的AI企业彻底消失在了历史的长河中,“人工智能寒潮已至”甚至成为行业年度热词. 与前几年创业与投资热情齐头并进的盛况相比,近段时间的AI行业 ...

  6. AI数据标注行业面临的5大发展困局丨曼孚科技

    根据艾瑞咨询发布的行业白皮书显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,预计2025年市场规模将突破113亿元,行业年复合增长率达到了23.5%.​ 作为人工智能产业的基石,数据 ...

  7. 曼孚科技:数据标注,AI背后的百亿市场

    ​ 1. 两年前,来自山东农村的王磊成为了一位数据标注员.彼时的他,工作内容非常简单且枯燥:识别图片中人的性别. 然而,一段时间之后,他注意到分配给他的任务开始变得越来越复杂:从识别性别到年龄,从框选 ...

  8. 曼孚科技:“四管齐下”筑牢AI数据隐私安全防线

    谈及数据,绕不开的一个话题就是数据隐私与数据安全.随着数字化进程加快,数据安全事件频发,据Risk Based Security统计,去年国际数据泄露事件近5000起,被泄露数据近41亿条,数据造成的 ...

  9. 战“疫”背后的AI身影丨曼孚科技

    近期新型冠状病毒肺炎的疫情,牵动着全国上下人民的心. 截止2月11日上午10点,全国确诊人数已达42708人,疑似病例21675人. 突发的疫情让部分地区的快速诊疗能力出现了结构性的缺失,为了打赢这场 ...

随机推荐

  1. 关键两步+6个要点,让Windows应用程序享有K8S的绝佳优势

    本文来自Rancher Labs 前  言 实际上,没有一个迁移路径能够适用于将所有传统应用程序迁移到云.这些应用程序通常在物理机.虚拟机或本地.虽然一般情况下是重新设计应用程序架构以适用云原生服务, ...

  2. Go语言基础之结构体(面向对象编程上)

    1 自定义类型和类型别名 1.1 自定义类型 Go语言中可以基于一些基本的数据类型,使用type关键字定义自定义类型的数据 . 自定义类型定义了一个全新的类型,该新类型具有基本数据类型的特性.自定义类 ...

  3. ORB-SLAM2 论文&代码学习 —— LoopClosing 线程

    转载请注明出处,谢谢 原创作者:Mingrui 原创链接:https://www.cnblogs.com/MingruiYu/p/12369339.html 本文要点: ORB-SLAM2 LoopC ...

  4. git基础教程(三)

    3.github与git同步 3.1 配置公私钥 3.2 github上建立个人仓库 3.3 本地仓库同步到github #将本地仓库与远端仓库建立连接 #用简写名代替后面的远端连接 git remo ...

  5. MFC/QT 学习笔记(四)——MFC基于对话框学习控件(上)

    新建项目->MFC模板->MFC应用程序->应用程序类型:基于对话框->...OK 解决方案资源管理器->资源文件->xxx.rc->进入:资源视图-> ...

  6. C#实现的Table的Merge,以及实现Table的Copy和Clone

    C#实现的对两个Table进行Merge,两表必须存在至少一个公共栏位作为连接项,否则连接就失去了意义.如下是对两个table进行Merge的详细代码: private void button1_Cl ...

  7. 面向对象+闭包+三种对象的声明方式(字面式、new Object、构造函数、工厂模式、原型模式、混合模式)

    面向对象: 对代码的一种抽象,对外统一提供调用接口的编程思想 对象的属性:事物自身拥有的东西 对象的方法:事物的功能 对象:事物的一个实例 对象的原型:.prototype -> 内存地址 -& ...

  8. Asp.Net Core 3.1 集成Swagger

    引入Nuget包 Swashbuckle.AspNetCore.SwaggerGen Swashbuckle.AspNetCore.SwaggerUI 配置Startup 配置ConfigureSer ...

  9. SSH-Secure-Shell 3.2.9 build283版本,创建直接打开文件传输的快捷方式的方法

    2019-12-31 16:21:23 版本信息: 在安装目录下新建快捷方式 目标填写:"D:\SSH-Secure-Shell\SshClient.exe" /f 图标选择,系统 ...

  10. docker搭建环境积累

    weblogic12搭建 sudo docker pull ismaleiva90/weblogic12 sudo docker run -d -p : -p : ismaleiva90/weblog ...