• 前言

先来看一些demo,来一些直观的了解。

自然语言处理:

可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备。

http://xiaosi.trs.cn/demo/rs/demo

知识图谱:

https://www.sogou.com/tupu/person.html?q=刘德华

还有2个实际应用的例子,加深对NLP的理解

九歌机器人:

https://jiuge.thunlp.cn/

微软对联机器人:

http://duilian.msra.cn/

  • NLP概述:

自然语言处理,是研究如何利用计算机技术对语言文本(句子,篇章或话语等)进行处理和加工的一门技术。

NLP的关键思想之一是将单词转换为数字向量,然后把这些数字向量放到机器学习模型中进行预测。

深度学习是NLP的关键技术之一。

自然语言处理是构建知识图谱的基础技术。

学科面临的主要挑战:

大量出现的新词语:例:佛系

无处不在的歧义:例:喜欢城市的年轻人

隐喻表达:例:在朋友圈潜水

不同语言的概念不同:翻译之间的理解

对应的核心挑战:

->语义分析

->语用场景的分析

  • NLP应用举例:

一: 汉语分词

1. 最大匹配法(基于规则或模板的方法)

2. 基于n-gram的分词法(传统的统计方法,生成式)

3. 基于神经网络的分词方法(目前最主流的分词方法)

二: 机器翻译:

1. 基于模板/规则的方法

2. 基于语料库的方法

3. 基于神经机器翻译方法

三: 同声翻译:

技术应用现状:

1,各种 输入法;

2,语音

  • 常见的NLP方法:

1.基于规则的方法

2.基于统计学习方法

---------------------------------------

基于统计方法的基本方法/框架:

框架:学习系统->模型->预测系统

原理:训练数据(样本),带标签,预测下一个输入后的输出

如买保险,买与不买是标签,已有买保险数据为样本。我们重点是做好训练模型

常用的统计模型:

模型主要是6,7种,侧重点不同,根据需要选择不同的模型使用即可。

1.统计模型

1) 语言模型(LM)--比较复杂

2) 隐马尔可夫模型(HMM)-----多分类问题(大于2的)

3)K-近邻(KNN)----数据量比较少可选用

4) 朴素贝叶斯法(NB)

5)决策树(DT)

6)最大熵(maximum entropy)

-------二类分类--------

7)支持向量机(SVN)

8)感知机

------序列标注-------

9)条件随机场(CRFConditional random fields)

基于统计学的一个算法,Viterbi算法:每次只保留最佳的算法

已有开源工具一大堆,这里不一一列出。

基于学习的基本方法:

人工神经网络最火的是深度学习

深度学习在2009年才取得重大突破,把识别率提高了百分之十几个点。

神经语言模型:

条件概率模型,统计之前出现次数的概率,预测概率最大化

计算机是没法理解人类语言的(意图),只能把出现概率最大的取出来,那么就需要大量的样本训练他。

神经网络分2种:

浅层学习:LR,SVM,Bayes,boosting

深度学习: CNN,RNN,DBM,AutoEncoder

CNN:卷积 RNN则不会过多约束

2个核心,1是卷积: 实际是一个加权运算;2是最大池化。

RNN:循环 CNN对于输入数据的维度约束是比较严重的,训练是啥,预测就是啥

LSTM(长短记忆神经网络,RNN的一种)核心过程:

3个门,每个门对应一个函数 。每个门的结果要么是0要么是1

遗忘门: 选择哪些遗忘

输入门: 决定输入什么

输出门:决定输出什么

---------------------------------------------------------

笔记:

1. N多的数学公式,要想深入学习,还得学好数学

2. 模型普通人就不要研究了

  • 知识图谱

知识图谱与深度学习相当于两条路在走,未来会深度学习。

深度学习可以用来预测,知识图谱不能,知识图谱类似将所有知识穷举起来,搜索你要的知识就行。

知识图谱可以为深度学习提供知识,深度学习为知识图谱提供模型与工具构建。

知识图谱是基于语义网发展起来的。

语义网: 具有一定关系的网络

知识图谱实例:

http://kw.fudan.edu.cn

http://zhishi.me

  • 文本挖掘

TF-IDF加权法

一堆概念与术语:

​NLU 自然语言理解

NLP 自然语言处理

MT 机器翻译

HLT 人类语言技术,包括NLU,CL,MT

DL(deep learning) 深度学习

NN(Neural Networks)神经网络

RNN(Convolutional Neural Networks):卷积神经网络

CNN:循环神经网络

LSTM:长短期记忆网络

n-gram:输入一句话,输出这句话的概率

​Word Embedding(词嵌入),将单词映射到向量空间里,并用向量来表示。

Word2vec 词向量表示,将相似的单词分组映射到向量空间的不同部分,即能学到单词与单词之间的关系。

​Word2Vec有2种方法,skip-gram和CBOW。

skip-gram:输入一个词,然后试着估计其他词出现在该词附近的概率。

CBOW:连续词汇学习

自然语言处理NLP学习笔记一:概念与模型初探的更多相关文章

  1. 自然语言处理NLP学习笔记三:使用Django做一个NLP的Web站点

    前言: 前面我们已经能初步实现一个中文自然处理语言的模型了,但交互界面是命令行的,不太友好. 如果想做一个类似http://xiaosi.trs.cn/demo/rs/demo的界面,那就还需要继续往 ...

  2. 自然语言处理NLP学习笔记二:NLP实战-开源工具tensorflow与jiagu使用

    前言: NLP工具有人推荐使用spacy,有人推荐使用tensorflow. tensorflow:中文译作:张量(超过3维的叫张量)详细资料参考:http://www.tensorfly.cn/ J ...

  3. Oracle RAC学习笔记:基本概念及入门

    Oracle RAC学习笔记:基本概念及入门 2010年04月19日 10:39 来源:书童的博客 作者:书童 编辑:晓熊 [技术开发 技术文章]    oracle 10g real applica ...

  4. Java IO学习笔记:概念与原理

    Java IO学习笔记:概念与原理   一.概念   Java中对文件的操作是以流的方式进行的.流是Java内存中的一组有序数据序列.Java将数据从源(文件.内存.键盘.网络)读入到内存 中,形成了 ...

  5. jQuery学习笔记之概念(1)

    jQuery学习笔记之概念(1) ----------------------学习目录-------------------- 1.概念 2.特点 3.选择器 4.DOM操作 5.事件 6.jQuer ...

  6. ArcGIS案例学习笔记-批量裁剪地理模型

    ArcGIS案例学习笔记-批量裁剪地理模型 联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 功能:空间数据的批量裁剪 优点:1.批量裁剪:任意多个目标数据,去裁剪任意 ...

  7. Java学习笔记之---单例模型

    Java学习笔记之---单例模型 单例模型分为:饿汉式,懒汉式 (一)要点 1.某个类只能有一个实例 2.必须自行创建实例 3.必须自行向整个系统提供这个实例 (二)实现 1.只提供私有的构造方法 2 ...

  8. WebGL three.js学习笔记 加载外部模型以及Tween.js动画

    WebGL three.js学习笔记 加载外部模型以及Tween.js动画 本文的程序实现了加载外部stl格式的模型,以及学习了如何把加载的模型变为一个粒子系统,并使用Tween.js对该粒子系统进行 ...

  9. tensorflow学习笔记——常见概念的整理

    TensorFlow的名字中已经说明了它最重要的两个概念——Tensor和Flow.Tensor就是张量,张量这个概念在数学或者物理学中可以有不同的解释,但是这里我们不强调它本身的含义.在Tensor ...

随机推荐

  1. 记录 vant Picker 选择器,实现三级联动,传对应省市区code值

    最近使用vant UI写移动端,感觉还不错 功能挺全的,带的还有省市区三级联动. 但是 突然遇到一个 产品要传的 省市区的code码,还和vant的 邮编不一样,我*****. 看了一下vant UI ...

  2. 观察者模式(Observer)---行为型

    1 基础知识 定义:定义了对象之间的一对多依赖,让多个观察者对象同时监听某一个主题对象,当主题对象发生变化时,它的所有依赖(观察者)都会收到通知并更新. 本质:触发联动 使用场景:关联行为场景,建立一 ...

  3. 【CUDA 基础】5.3 减少全局内存访问

    title: [CUDA 基础]5.3 减少全局内存访问 categories: - CUDA - Freshman tags: - 共享内存 - 归约 toc: true date: 2018-06 ...

  4. node中的http内置模块

    Node.js开发的目的就是为了用JavaScript编写Web服务器程序.因为JavaScript实际上已经统治了浏览器端的脚本,其优势就是有世界上数量最多的前端开发人员.如果已经掌握了JavaSc ...

  5. [Vue] : 键盘修饰符

    键盘修饰符以及自定义键盘修饰符 为文本框回车键绑定事件 <input type="text" class="form-control" v-model=& ...

  6. bzoj4152

    The Captain HYSBZ - 4152 给定平面上的n个点,定义(x1,y1)到(x2,y2)的费用为min(|x1-x2|,|y1-y2|),求从1号点走到n号点的最小费用. Input ...

  7. [Linux]虚拟机无法安装deepin15.9的解决方案

    虚拟机deepin15.9无法安装 sda assuming drive cache write through 显示内存不行,重启仍然无法安装 解决方案: 选择全盘安装方式 如果有全屏问题,需安装v ...

  8. UVA 1393 Highways,UVA 12075 Counting Triangles —— (组合数,dp)

    先看第一题,有n*m个点,求在这些点中,有多少条直线,经过了至少两点,且不是水平的也不是竖直的. 分析:由于对称性,我们只要求一个方向的线即可.该题分成两个过程,第一个过程是求出n*m的矩形中,dp[ ...

  9. solr系列之solr-5.5.5 window单机版jdk-1.7 tomcat8安装

    一.Solr5.5.5.Tomcat8-x64.jdk-1.7-64单机部署 1.准备安装包,下载solr和tomcat的安装,直接解压即可(上篇一提供solr的下载路径) 2.在Solr5之前都还存 ...

  10. Centos7 yum安装mysql(完整版)

    1.下载mysql 地址:https://dev.mysql.com/downloads/repo/yum/.选择对应版本下载.