1,corpus 语料库

a computer-readable collection of text or speech

2,utterance 发音

比如下面一句话:I do uh main- mainly business data processing

uh 是 fillers填充词(Words like uh and um are called fillers or filled pauses )。The broken-off word main- is fragment called a fragment 

3,Types are the number of distinct words in a corpus

给你一句话,这句话里面有多少个单词呢? 标点符号算不算单词?有相同lemma的单词算不算重复的单词?比如“he is a boy and you are a girl”,这句话中 “is”和 "are"的lemma 都是 be。另外,这句话中 "a" 出现了两次。那这句话有多少个单词?这就要看具体的统计单词个数的方式了。

Tokens are the total number N of running words.

4,Morphemes

A Morpheme is the smallest division of text that has meaning. Prefxes and suffxes are examples of morphemes

These are the smallest units of a word that is meaningful. 比如说:“bounded”,"bound"就是一个 morpheme,而Morphemes而包含了后缀 ed

5,Lemma(词根) 和 Wordform(词形)

Cat 和 cats 属于相同的词根,但是却是不同的词形。

Lemma 和 stem 有着相似的意思:

6,stem

Stemming is the process of finding the word stem of a word 。比如,walking 、walked、walks 有着相同的stem,即: walk

与stem相关的一个概念叫做 lemmatization,它用来确定一个词的基本形式,这个过程叫做lemma。比如,单词operating,它的stem是 ope,它的lemma是operate

Lemmatization is a more refined process than stemming and uses vocabulary and morphological techniques to find a lemma. This can result in more precise analysis in some situations 。

The lemmatization process determines the lemma of a word. A lemma can be thought of as the dictionary form of a word.

(Lemmatization 要比 stemming 复杂,但是它们都是为了寻找 单词的 “根”)。但是Lemmatization 更复杂,它用到了一些词义分析(finding the morphological or vocabulary meaning of a token)

Stemming and lemmatization: These processes will alter the words to get to their "roots".  Similar to stemming is Lemmatization. This is the process of fnding its lemma, its form as found in a dictionary.

Stemming is frequently viewed as a more primitive technique, where the attempt to get to the "root" of a word involves cutting off parts of the beginning and/or ending of a token.

Lemmatization can be thought of as a more sophisticated approach where effort is devoted to finding the morphological or vocabulary meaning of a token。

比如说 having 的 stem 是 hav,但是它的 lemma 是have

再比如说 was 和 been 有着不同的 stem,但是有着相同的 lemma : be

7,affix 词缀 (prefix 和 suffxes)

比如说:一个单词的 现在进行时,要加ing,那么 ing 就是一个后缀。

This precedes or follows the root of a word . 比如说,ation 就是 单词graduation的后缀。

8,tokenization (分词)

就是把一篇文章拆分成一个个的单词。The process of breaking text apart is called tokenization

9,Delimiters (分隔符)

要把一个句子 分割成一个个的单词,就需要分隔符,常用的分隔符有:空格、tab键(\t);还有 逗号、句号……这个要视具体的处理任务而定。

The elements of the text that determine where elements should be split are called Delimiters 。

10,categorization (归类)

把一篇文本,提取中心词,进行归类,来说明这篇文章讲了什么东西。比如写了一篇blog,需要将这篇blog的个人分类,方便以后查找。

This is the process of assigning some text element into one of the several possible groups.

11,stopwords

某些NLP任务需要将一些常出现的“无意义”的词去掉,比如:统计一篇文章频率最高的100个词,可能会有大量的“is”、"a"、"the" 这类词,它们就是 stopwords。

Commonly used words might not be important for some NLP tasks such as general searches. These common words are called stopwords

由于大部分文本都会包含 stopwords,因此文本分类时,最好去掉stopwords。关于stopwords的一篇参考文章

12,Normalization (归一化)

将一系列的单词 转化成 某种 统一 的形式,比如:将一句话的各个单词中,有大写、有小写,将之统一转成 小写。再比如,一句话中,有些单词是 缩写词,将之统一转换成全名。

Normalization is a process that converts a list of words to a more uniform sequence.

Normalization operations can include the following:(常用的归一化操作有如下几种)

converting characters to lowercase(大小写转换),expanding abbreviation(缩略词变成全名), removing stopwords(移除一些常见的“虚词”), stemming, and lemmatization.(词干或者词根提取)

参考资料

《JAVA自然语言处理》Natural Language processing with java

原文:http://www.cnblogs.com/hapjin/p/7581335.html

NLP里面的一些基本概念的更多相关文章

  1. 自然语言处理NLP学习笔记一:概念与模型初探

    前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. http://xiaosi.trs.cn/demo/rs/demo 知识图 ...

  2. 自然语言处理(NLP) - 数学基础(3) - 概率论基本概念与随机事件

    好像所有讲概率论的文章\视频都离不开抛骰子或抛硬币这两个例子, 因为抛骰子的确是概率论产生的基础, 赌徒们为了赢钱就不在乎上帝了才导致概率论能突破宗教的绞杀, 所以我们这里也以抛骰子和抛硬币这两个例子 ...

  3. DeepNLP的核心关键/NLP词的表示方法类型/NLP语言模型 /词的分布式表示/word embedding/word2vec

    DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇.序 一.DeepNLP的核心关键:语言表示(Representation) 二.NL ...

  4. 认知升级:提升理解层次的NLP思维框架

    NLP(神经语言程序学)是由理查德·班德勒和约翰·格林德在1976年创办的一门学问,美国前总统克林顿.微软领袖比尔盖茨.大导演斯皮尔博格等许多世界名人都接受过 NLP培训,世界500强企业中的 60% ...

  5. 自然语言处理(NLP)——简介

    自然语言处理(NLP Natural Language Processing)是一种专业分析人类语言的人工智能.就是在机器语⾔和⼈类语言之间沟通的桥梁,以实现人机交流的目的. 在人工智能出现之前,机器 ...

  6. (转)TensorFlow 入门

        TensorFlow 入门 本文转自:http://www.jianshu.com/p/6766fbcd43b9 字数3303 阅读904 评论3 喜欢5 CS224d-Day 2: 在 Da ...

  7. Noisy Channel模型纠正单词拼写错误

    本文介绍 Stanford<From Languages to Information>课程中讲到的 单词拼写错误 纠正.背后的数学原理主要是贝叶斯公式.单词拼写错误纠正主要涉及到两个模型 ...

  8. 论文笔记:Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association

    Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language ...

  9. 词嵌入向量WordEmbedding

    词嵌入向量WordEmbedding的原理和生成方法   WordEmbedding 词嵌入向量(WordEmbedding)是NLP里面一个重要的概念,我们可以利用WordEmbedding将一个单 ...

随机推荐

  1. Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink

    https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247492538&idx=2&sn=9a2bd9fe2d7fd6 ...

  2. kafka 流式计算

    http://www.infoq.com/cn/articles/kafka-analysis-part-7/ Kafka设计解析(七)- 流式计算的新贵 Kafka Stream

  3. P1972 HHのnecklace 离线+树状数组

    此题莫队可过 然而太难了...... 我在胡雨菲那看的解法,然后自己打了一波,调了一个错,上交,自信AC. 做法:离线,对于L排序. 每种颜色可能出现很多次,那么我们如何不算重复呢? 只需把[L,n] ...

  4. java8 List<对象> 转 Set、Map(高级)

    实体类 public class Student { private int id; private String name; private String score; private int cl ...

  5. django系列 1 :python+django环境搭建 +mac提示找不到manage.py命令

    1.安装python3 2.设置python3的环境变量 3.进入命令行模式,输入 pip install django 1.10.3 4.验证是否安装完成 pip show django 5.dja ...

  6. E212: Can't open file for writing

    意思是不能保存. 原因是权限不够,普通用户用vi 进行不了保存,需要使用超级用户才可以 命令:sudo su     转换成超级用户 vi hello       打开文件 :wq 即可保存退出

  7. vertical-align垂直对齐用法

    一.垂直对齐方式{vertical-align:middle/top/bottom:} <img>垂直对齐方式:1)给自身加vertical-align:再设置line-height即可: ...

  8. win命令大全

    Windows系统:开始--运行--命令大全 Nslookup-------IP地址侦测器                       explorer-------打开资源管理器 logoff--- ...

  9. Mesos初体验-Mesos优势

    一.Mesos优势 1.Mesos的核心是分布式集群资源分配,不负责任务调度,因而Mesos可以和其他集群协同工作 2.Mesos主要实现了分布式集群的管理系统中的资源分配功能,其他功能主要靠额外的组 ...

  10. python自动化开发-[第二十五天]-scrapy进阶与flask使用

    今日内容概要 1.cookie操作 2.pipeline 3.中间件 4.扩展 5.自定义命令 6.scrapy-redis 7.flask使用 - 路由系统 - 视图 - 模版 - message( ...