【NLP汉语自然语言处理与实践】分词_笔记
一、两种分词标准:
1. 粗粒度。
- 将词作为最小基本单位。比如:浙江大学。
- 主要用于自然语言处理的各种应用。
2. 细粒度。
- 不仅对词汇继续切分,也对词汇内部的语素进行切分。比如:浙江/大学。
- 主要用于搜索引擎。一种常用方案是:
- 索引的时候使用细粒度的分词以保证召回,比如浙江/大学
- 询的时候使用粗粒度的分词以保证精度
二、歧义
1.分类:
- 交集型切分歧义。对于AJB,AJ和JB都成词
- 组合型切分歧义。对于AB,A、B、AB都成词
- 多义组合型切分歧义。对于AB,(1)A、B、AB同时为词;(2)文本中至少存在一个上下文语境c,在c的约束下,A、B在语法和语义上都成立
- PS:语法与语义
- 语法:语言符号之间的关系
- 语义:语言符号与所指事物之间的关系
2. 解决方法(分词算法)
- 机械分词系统
- 基于最大匹配方法MM(The Maximum Matching Method)
- 设词典中的最长词条为L,每次先取L个词尝试匹配,若失败,就去掉最后一个字,取前L-1个词尝试匹配,以此类推
- 双向匹配法
- MM的改进算法,分为正向最佳匹配法和逆向最佳匹配法
- 两个方向得到的结果必然不同
- 缺陷:只能正向或逆向得找出最长的词,而不能找出所有的候选词条
- 双向扫描法
- 以上的改进算法,能更快速的检测出歧义产生的位置
- 整体缺点:没有考虑词汇上下文相关性,分词准确度不高
- 基于最大匹配方法MM(The Maximum Matching Method)
- 机械分词系统揭示了一个语言规律:
- 一个词汇的出现与其上下文环境中出现的词汇序列存在着紧密的联系
- 上下文相关性:
- 文本中第n个词的出现与其前后n-m和n+m个词有高度相关性,这个范围[-m,m]称为窗口范围
计算:Markov假设+最大似然估计,看笔记
三、未登录词识别(Named Entity Recognition, NER)
- 未登录词中,九成是专有名词,其余为通用新词或专业术语。所以未登录词识别就是包括中国人名、译名、日本人名、地理位置名称、组织机构等专有名词的识别。
- 在NLP中,通常将上述专有名词和数字、日期等词称为命名实体。
- 算法
- 基于构词编码的方法
- 缺点:只适用于狭窄的专门领域等,在处理大规模不同领域的未登录词上存在很大的障碍
- 基于语义的方法
- 认为:不同语义类下的未登录词,在统计学规律上具有相似性。
- 算法:基于半监督的条件随机场算法(semi-CRF)
- 基于构词编码的方法
【NLP汉语自然语言处理与实践】分词_笔记的更多相关文章
- 郑捷2017年电子工业出版社出版的图书《NLP汉语自然语言处理原理与实践》
郑捷2017年电子工业出版社出版的图书<NLP汉语自然语言处理原理与实践> 第1章 中文语言的机器处理 1 1.1 历史回顾 2 1.1.1 从科幻到现实 2 1.1.2 早期的探索 3 ...
- NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理 概念 Natural Language Processing/Understanding,自然语言处理/理解 日常对话.办公写作.上网浏览 希望机器能像人一样去理解,以 ...
- Exp2后门原理与实践_20154305 _ 齐 帅
Exp2后门原理与实践 20154305 _ 齐 帅 2.1简单后门 一.后门工具介绍 1.netcat(nc.ncat) 是一个底层工具,进行基本的TCP UDP数据收发.常被与其他工具结合使用,起 ...
- 实验三《敏捷开发与XP实践》_实验报告
实验三<敏捷开发与XP实践>_实验报告 一.实验内容和步骤 提交点1: 任务要求: 实验三 敏捷开发与XP实践 http://www.cnblogs.com/rocedu/p/479577 ...
- 在TensorFlow中基于lstm构建分词系统笔记
在TensorFlow中基于lstm构建分词系统笔记(一) https://www.jianshu.com/p/ccb805b9f014 前言 我打算基于lstm构建一个分词系统,通过这个例子来学习下 ...
- RESTful接口设计原则/最佳实践(学习笔记)
RESTful接口设计原则/最佳实践(学习笔记) 原文地址:http://www.vinaysahni.com/best-practices-for-a-pragmatic-restful-api 1 ...
- 《疯狂前端开发讲义jQuery+Angular+Bootstrap前端开发实践》学习笔记
<疯狂前端开发讲义jQuery+Angular+Bootstrap前端开发实践>学习笔记 二〇一九年二月十三日星期三2时28分54秒 前提:本书适合有初步HTML.CSS.JavaScri ...
- 20180929 北京大学 人工智能实践:Tensorflow笔记04
20180929 北京大学 人工智能实践:Tensorflow笔记03(2018-09-30 00:01)
- 20180929 北京大学 人工智能实践:Tensorflow笔记01
北京大学 人工智能实践:Tensorflow笔记 https://www.bilibili.com/video/av22530538/?p=13 (完)
随机推荐
- SQL端通过脚本判断文件夹是否存在 并创建
做数据库备份作业的时候..想按日期建立文件夹.. 首先要判断文件夹是否存在 ) --路径 ) --日期 例如: 20171011 SET @DATE=CAST(DATEPART(YYYY,GETDAT ...
- Oracle rownum
本问参考自Oracle中ROWNUM的使用技巧.纯属读书笔记,用于加深记忆 rownum是oracle中的一种伪列,它会根据返回的记录生成一个序列化的数字,利用rownum,我们可以得到一些原先难以得 ...
- IDEA里如何安装Python插件打造开发环境(图文详解)
前言 python是一种功能强大和适用面很广的开发语言,在大数据应用和机器学习日益流行的年代,python凭借其简洁.易用和可扩展性获得很多用户的支持,近年来使用率高速增长.python环境下,集成了 ...
- QQ游戏--捕鱼假日竞技港对抗岛自动刷贝壳辅助使用教程和下载地址
首先解压缩到D盘根目录 再进入buyujiari文件夹双击 然后打开QQ游戏,进入竞技港-->对抗岛,到达开始准备的界面 再打开 辅助.exe 360对按键精灵的一个文件会提示病毒,可不用理会 ...
- orcale 之PL/SQL 控制语句
控制语句是PL/SQL 的关键所在.只有学好这些控制语句才能在工作中更好的实现各种的功能. 选择结构 1. IF 语句 和其他的编程语言很类似.它的具体机构如下: IF(条件)THEN {语句} EL ...
- poj 2954 Triangle
pick公式+gcd公式 #include<iostream> #include<map> #include<string> #include<cstring ...
- React项目的打包
1.create-react-app 来自Facebook官方的零配置命令行工具.create-react-app是来自于Facebook出品的零配置命令行工具,能够帮你自动创建基于Webpack+E ...
- ES6中的类继承和ES5中的继承模式详解
1.ES5中的继承模式 我们先看ES5中的继承. 既然要实现继承,首先我们得要有一个父类. Animal.prototype.eat = function(food) { console.log(th ...
- java设计模式-观察者模式学习
最近学习了设计模式中的观察者模式,在这里记录下学习成果. 观察者模式,个人理解:就是一个一对多模型,一个主体做了事情,其余多个主体都可以观察到.只不过这个主体可以决定谁去观察他,以及做什么事情可以给别 ...
- sql server query to get the list of column name in a table
--SQL Server 2005, 2008 or 2012: SELECT * FROM information_schema.tables --SQL Server 2000: SELECT * ...