1,corpus 语料库

a computer-readable collection of text or speech

2,utterance 发音

比如下面一句话:I do uh main- mainly business data processing

uh 是 fillers填充词(Words like uh and um are called fillers or filled pauses )。The broken-off word main- is fragment called a fragment 

3,Types are the number of distinct words in a corpus

给你一句话,这句话里面有多少个单词呢? 标点符号算不算单词?有相同lemma的单词算不算重复的单词?比如“he is a boy and you are a girl”,这句话中 “is”和 "are"的lemma 都是 be。另外,这句话中 "a" 出现了两次。那这句话有多少个单词?这就要看具体的统计单词个数的方式了。

Tokens are the total number N of running words.

4,Morphemes

A Morpheme is the smallest division of text that has meaning. Prefxes and suffxes are examples of morphemes

These are the smallest units of a word that is meaningful. 比如说:“bounded”,"bound"就是一个 morpheme,而Morphemes而包含了后缀 ed

5,Lemma(词根) 和 Wordform(词形)

Cat 和 cats 属于相同的词根,但是却是不同的词形。

Lemma 和 stem 有着相似的意思:

6,stem

Stemming is the process of finding the word stem of a word 。比如,walking 、walked、walks 有着相同的stem,即: walk

与stem相关的一个概念叫做 lemmatization,它用来确定一个词的基本形式,这个过程叫做lemma。比如,单词operating,它的stem是 ope,它的lemma是operate

Lemmatization is a more refined process than stemming and uses vocabulary and morphological techniques to find a lemma. This can result in more precise analysis in some situations 。

The lemmatization process determines the lemma of a word. A lemma can be thought of as the dictionary form of a word.

(Lemmatization 要比 stemming 复杂,但是它们都是为了寻找 单词的 “根”)。但是Lemmatization 更复杂,它用到了一些词义分析(finding the morphological or vocabulary meaning of a token)

Stemming and lemmatization: These processes will alter the words to get to their "roots".  Similar to stemming is Lemmatization. This is the process of fnding its lemma, its form as found in a dictionary.

Stemming is frequently viewed as a more primitive technique, where the attempt to get to the "root" of a word involves cutting off parts of the beginning and/or ending of a token.

Lemmatization can be thought of as a more sophisticated approach where effort is devoted to finding the morphological or vocabulary meaning of a token。

比如说 having 的 stem 是 hav,但是它的 lemma 是have

再比如说 was 和 been 有着不同的 stem,但是有着相同的 lemma : be

7,affix 词缀 (prefix 和 suffxes)

比如说:一个单词的 现在进行时,要加ing,那么 ing 就是一个后缀。

This precedes or follows the root of a word . 比如说,ation 就是 单词graduation的后缀。

8,tokenization (分词)

就是把一篇文章拆分成一个个的单词。The process of breaking text apart is called tokenization

9,Delimiters (分隔符)

要把一个句子 分割成一个个的单词,就需要分隔符,常用的分隔符有:空格、tab键(\t);还有 逗号、句号……这个要视具体的处理任务而定。

The elements of the text that determine where elements should be split are called Delimiters 。

10,categorization (归类)

把一篇文本,提取中心词,进行归类,来说明这篇文章讲了什么东西。比如写了一篇blog,需要将这篇blog的个人分类,方便以后查找。

This is the process of assigning some text element into one of the several possible groups.

11,stopwords

某些NLP任务需要将一些常出现的“无意义”的词去掉,比如:统计一篇文章频率最高的100个词,可能会有大量的“is”、"a"、"the" 这类词,它们就是 stopwords。

Commonly used words might not be important for some NLP tasks such as general searches. These common words are called stopwords

由于大部分文本都会包含 stopwords,因此文本分类时,最好去掉stopwords。关于stopwords的一篇参考文章

12,Normalization (归一化)

将一系列的单词 转化成 某种 统一 的形式,比如:将一句话的各个单词中,有大写、有小写,将之统一转成 小写。再比如,一句话中,有些单词是 缩写词,将之统一转换成全名。

Normalization is a process that converts a list of words to a more uniform sequence.

Normalization operations can include the following:(常用的归一化操作有如下几种)

converting characters to lowercase(大小写转换),expanding abbreviation(缩略词变成全名), removing stopwords(移除一些常见的“虚词”), stemming, and lemmatization.(词干或者词根提取)

参考资料

《JAVA自然语言处理》Natural Language processing with java

原文:http://www.cnblogs.com/hapjin/p/7581335.html

NLP里面的一些基本概念的更多相关文章

  1. 自然语言处理NLP学习笔记一:概念与模型初探

    前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. http://xiaosi.trs.cn/demo/rs/demo 知识图 ...

  2. 自然语言处理(NLP) - 数学基础(3) - 概率论基本概念与随机事件

    好像所有讲概率论的文章\视频都离不开抛骰子或抛硬币这两个例子, 因为抛骰子的确是概率论产生的基础, 赌徒们为了赢钱就不在乎上帝了才导致概率论能突破宗教的绞杀, 所以我们这里也以抛骰子和抛硬币这两个例子 ...

  3. DeepNLP的核心关键/NLP词的表示方法类型/NLP语言模型 /词的分布式表示/word embedding/word2vec

    DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇.序 一.DeepNLP的核心关键:语言表示(Representation) 二.NL ...

  4. 认知升级:提升理解层次的NLP思维框架

    NLP(神经语言程序学)是由理查德·班德勒和约翰·格林德在1976年创办的一门学问,美国前总统克林顿.微软领袖比尔盖茨.大导演斯皮尔博格等许多世界名人都接受过 NLP培训,世界500强企业中的 60% ...

  5. 自然语言处理(NLP)——简介

    自然语言处理(NLP Natural Language Processing)是一种专业分析人类语言的人工智能.就是在机器语⾔和⼈类语言之间沟通的桥梁,以实现人机交流的目的. 在人工智能出现之前,机器 ...

  6. (转)TensorFlow 入门

        TensorFlow 入门 本文转自:http://www.jianshu.com/p/6766fbcd43b9 字数3303 阅读904 评论3 喜欢5 CS224d-Day 2: 在 Da ...

  7. Noisy Channel模型纠正单词拼写错误

    本文介绍 Stanford<From Languages to Information>课程中讲到的 单词拼写错误 纠正.背后的数学原理主要是贝叶斯公式.单词拼写错误纠正主要涉及到两个模型 ...

  8. 论文笔记:Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association

    Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language ...

  9. 词嵌入向量WordEmbedding

    词嵌入向量WordEmbedding的原理和生成方法   WordEmbedding 词嵌入向量(WordEmbedding)是NLP里面一个重要的概念,我们可以利用WordEmbedding将一个单 ...

随机推荐

  1. 支持markwon写ppt的工具marp-调研

    1.需求 使用markdown写ppt 支持大部分markdown语法,含高亮.公式及表格等 支持转为html,在浏览器中展示 2.调研 符合条件的工具:marp 用法参考 Marp之简单编写PPT格 ...

  2. python学习day7 深浅拷贝&文件操作

    4-4 day07 深浅拷贝&文件操作 .get()用法 返回指定键的值,如果值不在字典中返回默认值. info={'k1':'v1,'K2':'v2'}mes = info.get('k1' ...

  3. Nginx环境的搭建

    源码安装 不同发行版使用的安装程序都不同,所以官方提供了源代码,我们需要将原代码编译后再安装. 源程序使用C语言开发,所以需要安装C语言的编译环境. 安装Nginx环境和第三方支持库 yum inst ...

  4. jackson json转对象 对象转json

    一,Jackson使用示例 第1步:创建ObjectMapper对象. 创建ObjectMapper对象.它是一个可重复使用的对象. ObjectMapper mapper = new ObjectM ...

  5. P1886 P2216 单调队列模板

    何为单调队列? 单调队列是一个队列(废话) 而且必须同时满足下标单调和值单调两个单调特性. 跟优先队列不同,优先队列直接使用堆(heap)来实现,如何删去特定下标元素?不明. 本人喜欢用单调队列存下标 ...

  6. Java String与Stringbuffer

    String 与其它类型的转换,e.g. BigInteger Stringbuffer 诸多函数,replace…… String 不能修改,Stringbuffer 可以修改, 应避免以下的操作: ...

  7. 第十九节,使用RNN实现一个退位减法器

    退位减法具有RNN的特性,即输入的两个数相减时,一旦发生退位运算,需要将中间状态保存起来,当高位的数传入时将退位标志一并传入参与计算. 我们在做减法运算时候,把减数和被减数转换为二进制然后进行运算.我 ...

  8. 关于ComponentName组件名称的使用

    ComponentName,顾名思义,就是组件名称,通过调用Intent中的setComponent方法,我们可以打开另外一个应用中的Activity或者服务. 实例化一个ComponentName需 ...

  9. HTML学习笔记Day2

    一.部分表单元素的使用 1.表单的作用:用来收集用户信息 2.表单元素 (1)表单控件: 单行文本框:<input  type="text" value="默认值& ...

  10. bind,apply,call,caller,callee还傻傻分不清楚?

    先介绍每个的语法: 1. bind() 语法:fn.bind(thisObj[, arg1[, arg2[, ...]]]) fn:是想要改变this指向的函数 thisObj:表示fn中this指针 ...