1. 自然语言概念

自然语言,即我们人类日常所使用的语言,是人类交际的重要方式,也是人类区别其他动物的本质特征。

但是我们只能通过自然语言与人交流,无法与计算机进行交流。

2. 自然语言处理

自然语言处理,是人工智能的一部分,实现了人与计算机之间的有效通信。自然语言处理属于计算机科学领域与人工智能领域,其研究使用计算机编程来处理和理解人类的语言。

3.  应用场景

  • 情感分析(从一段文本中提取该文本的感情色彩,是褒义、中性还是贬义)
  • 机器翻译
  • 文本相似度匹配(从多段文本中,分析两段文本内容的相似度)
  • 智能客服(就是聊天机器人)

4. 自然语言处理通用技术

(1) 分词

概念:将连续的文本,分割成语义合理的若干词汇序列。

例如:阿里云自然语言处理,通过分词器,转变为 阿里云/自然/语言/处理

(2) 停用词过滤

概念:在文本中大量存在,但对语义分析没有帮助的词。

例如:呢、啊、吗。。。

(3) 词干提取

概念:对单词去掉后缀,还原词本身。词干提取主要用在英文等西方语言中。

例如:being —> be

(4) 词形还原

概念:对同一单词不同形式的识别,将单词还原为标准形式。主要用在英文等西方语言中。

例如:is, am, are —> be

比较:词干提取与词形还原

相同点:都是对同一单词的不同格式进行处理

不同点:词干提取是去掉单词的后缀;词形还原是以词元为依据,根据语义进行分析,获取单词的标准形式。

例如:ate =>at(词干提取)

   ate =>eat(词形还原)

(5) 词袋模型

概念:是用来将文本转换成特征向量的表示形式。将每个文档构建一个特征向量,其中包含每个单词在文档中出现次数。

缺点:

  • 忽略了大众词(在文档中也经常出现)
  • 特征向量特别多

(6) TF-IDF

概念:指词频-逆文档频率。针对词语重要性的一种加权统计方式。全称:Term Frequency-Inverse Document Frequency。

场合:常用在信息检索、文本挖掘等技术中,作为加权因子。

TF-IDF的核心思想为词条的重要性随着该词条在当前文档中出现的次数成正比增加,但同时会随着它在语料库(所有文档)中出现的频率成反比下降。

公式:TF-IDF = TF(词频) * IDF(逆文档频率)

含义解释:

TF:词频统计,对文章中词语出现的频率进行计数统计

TF = (当前的文档单词出现的次数)/(当前的文档中包含的单词总数)

IDF:逆文档频率,指语料库中文档总数与语料库中包含该词的文档数,二者比值的对数。

IDF = log((语料库中文档总数)/(语料库中包含该词的文档数+1))

例子:

昨夜星辰昨夜

我们一起学习自然语言处理

昨夜下了一场大雨

星期二是晴天

计算第一个文档"昨夜"的TF-IDF值?

TF(昨夜) = 2/4

IDF(昨夜) = log(4/(2+1))

TF-IDF = TF * IDF = 1/2*log(4/3)

(7) Word2Vec

概念:是google2013年提出的一个开源算法,使用神经网络技术,可以将词表转换成向量表示。确切的说,将词映射成n维空间向量,特征纬度n视具体情况与需求而定。

核心思想:通过将词条转换成向量,从而根据余弦相似度来计算文本之间的相似度。

cosθ=abab

NLP自然语言处理原理及名词介绍的更多相关文章

  1. 郑捷2017年电子工业出版社出版的图书《NLP汉语自然语言处理原理与实践》

    郑捷2017年电子工业出版社出版的图书<NLP汉语自然语言处理原理与实践> 第1章 中文语言的机器处理 1 1.1 历史回顾 2 1.1.1 从科幻到现实 2 1.1.2 早期的探索 3 ...

  2. 学习NLP:《自然语言处理原理与技术实现(罗刚)》PDF+代码

    自然语言处理技术已经深入我们的日常生活.我们经常用到的搜索引擎就用到了自然语言理解等自然语言处理技术.自然语言处理是一门交叉学科,涉及计算机.数学.语言学等领域的知识. <自然语言处理原理与技术 ...

  3. NLP 自然语言处理实战

    前言 自然语言处理 ( Natural Language Processing, NLP) 是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和 ...

  4. Atitit 自然语言处理原理与实现 attilax总结

    Atitit 自然语言处理原理与实现 attilax总结 1.1. 中文分词原理与实现 111 1.2. 英文分析 1941 1.3. 第6章 信息提取 2711 1.4. 第7章 自动摘要 3041 ...

  5. Nmap原理-01选项介绍

    Nmap原理-01选项介绍 1.Nmap原理图 Nmap包含四项基本功能:主机发现/端口扫描/版本探测/操作系统探测.这四项功能之间存在大致的依赖关系,比如图片中的先后关系,除此之外,Nmap还提供规 ...

  6. flask 第六章 人工智能 百度语音合成 识别 NLP自然语言处理+simnet短文本相似度 图灵机器人

    百度智能云文档链接 : https://cloud.baidu.com/doc/SPEECH/index.html 1.百度语音合成 概念: 顾名思义,就是将你输入的文字合成语音,例如: from a ...

  7. JVM垃圾回收器原理及使用介绍

    JVM垃圾回收器原理及使用介绍 垃圾收集基础 引用计数法(Reference Counting) 标记-清除算法(Mark-Sweep) 复制算法(Copying) 标记-压缩算法(Mark-Comp ...

  8. 云小课|MRS基础原理之MapReduce介绍

    阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要:MapReduce ...

  9. NLP自然语言处理中英文分词工具集锦与基本使用介绍

    一.中文分词工具 (1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具 1.from stanfor ...

随机推荐

  1. HDU 6468 zyb的面试

    http://acm.hdu.edu.cn/showproblem.php?pid=6468 题目 今天zyb参加一场面试,面试官听说zyb是ACMer之后立马抛出了一道算法题给zyb:有一个序列,是 ...

  2. abp添加动态菜单

    abp中MenuDefinition封装了导航栏上的主菜单的属性,MenuItemDefinition则封装了子菜单的属性,子菜单可以引用其他子菜单构成一个菜单树. MenuDefinitio成员如下 ...

  3. [pip]upgrade outdated pip package on windows / 在windows上更新所有过时的pip包

    首先更新pip自身: python -m pip install -U pip 查询过期包: pip list --outdated --format=columns Package Version ...

  4. CF集萃2

    CF1155D - Beautiful Array 题意:给你一个序列和x,你可以选择任意一个子串(可以为空)乘上x,使得得到的序列最大子串和最大.求这个最大值.30w,2s. 解:设fi,0/1/2 ...

  5. 【一本通1248:Dungeon Master&&洛谷UVA532 Dungeon Master】

    若不会广搜转向[广搜] [题目描述] 这题是一个三维的迷宫题目,其中用‘.’表示空地,‘#’表示障碍物,‘S’表示起点,‘E’表示终点,求从起点到终点的最小移动次数,解法和二维的类似,只是在行动时除了 ...

  6. [localhost-startStop-1] org.apache.catalina.startup.HostConfig.deployDirectory Deployment of web application directory [E:\soft\studySoft\tomcat\apache-tomcat-8.5.33\webapp

    问题 启动tomcat,就一直卡在了这里 继续往上查看日志 解决方法:

  7. 关于Mac 系统mysql 乱码问题

    这是由于客户端和服务端的编码没有同一 首先我们先在终端连接mysql  连接方法 mysql -u 用户名  -p  即可 然后输入你的密码 这里就不多说了 然后我们输入   show variabl ...

  8. python 速记正则使用(转)

    目录 python 速记正则使用(转) 正则表达式语法 字符与字符类 量词 组与捕获 断言与标记 条件匹配 正则表达式的标志 Python正则表达式模块 四大功能 两种方法 常用方法 匹配对象的属性与 ...

  9. 转载:在做datatable时候查询数据和条数只用一次sql就可以解决需求

    前言:最近用datatable处理数据比较多,所以在使用时候想提升性能 select * from t_hr_leave SELECT FOUND_ROWS() //返回查询记录的总数 select ...

  10. django——个人博客之分页/筛选功能

    在完成了注册.登录后就应该显示主页,在主页中有各种功能的按钮,用户点击后进入后台管理,不同角色的用户根据权限不同显示的页面是不相同的,在个人博客页面会显示自己发布的文章,以及自己的保障记录,在进入后台 ...