【NLP汉语自然语言处理与实践】分词_笔记
一、两种分词标准:
1. 粗粒度。
- 将词作为最小基本单位。比如:浙江大学。
- 主要用于自然语言处理的各种应用。
2. 细粒度。
- 不仅对词汇继续切分,也对词汇内部的语素进行切分。比如:浙江/大学。
- 主要用于搜索引擎。一种常用方案是:
- 索引的时候使用细粒度的分词以保证召回,比如浙江/大学
- 询的时候使用粗粒度的分词以保证精度
二、歧义
1.分类:
- 交集型切分歧义。对于AJB,AJ和JB都成词
- 组合型切分歧义。对于AB,A、B、AB都成词
- 多义组合型切分歧义。对于AB,(1)A、B、AB同时为词;(2)文本中至少存在一个上下文语境c,在c的约束下,A、B在语法和语义上都成立
- PS:语法与语义
- 语法:语言符号之间的关系
- 语义:语言符号与所指事物之间的关系
2. 解决方法(分词算法)
- 机械分词系统
- 基于最大匹配方法MM(The Maximum Matching Method)
- 设词典中的最长词条为L,每次先取L个词尝试匹配,若失败,就去掉最后一个字,取前L-1个词尝试匹配,以此类推
- 双向匹配法
- MM的改进算法,分为正向最佳匹配法和逆向最佳匹配法
- 两个方向得到的结果必然不同
- 缺陷:只能正向或逆向得找出最长的词,而不能找出所有的候选词条
- 双向扫描法
- 以上的改进算法,能更快速的检测出歧义产生的位置
- 整体缺点:没有考虑词汇上下文相关性,分词准确度不高
- 基于最大匹配方法MM(The Maximum Matching Method)
- 机械分词系统揭示了一个语言规律:
- 一个词汇的出现与其上下文环境中出现的词汇序列存在着紧密的联系
- 上下文相关性:
- 文本中第n个词的出现与其前后n-m和n+m个词有高度相关性,这个范围[-m,m]称为窗口范围
计算:Markov假设+最大似然估计,看笔记
三、未登录词识别(Named Entity Recognition, NER)
- 未登录词中,九成是专有名词,其余为通用新词或专业术语。所以未登录词识别就是包括中国人名、译名、日本人名、地理位置名称、组织机构等专有名词的识别。
- 在NLP中,通常将上述专有名词和数字、日期等词称为命名实体。
- 算法
- 基于构词编码的方法
- 缺点:只适用于狭窄的专门领域等,在处理大规模不同领域的未登录词上存在很大的障碍
- 基于语义的方法
- 认为:不同语义类下的未登录词,在统计学规律上具有相似性。
- 算法:基于半监督的条件随机场算法(semi-CRF)
- 基于构词编码的方法
【NLP汉语自然语言处理与实践】分词_笔记的更多相关文章
- 郑捷2017年电子工业出版社出版的图书《NLP汉语自然语言处理原理与实践》
郑捷2017年电子工业出版社出版的图书<NLP汉语自然语言处理原理与实践> 第1章 中文语言的机器处理 1 1.1 历史回顾 2 1.1.1 从科幻到现实 2 1.1.2 早期的探索 3 ...
- NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理 概念 Natural Language Processing/Understanding,自然语言处理/理解 日常对话.办公写作.上网浏览 希望机器能像人一样去理解,以 ...
- Exp2后门原理与实践_20154305 _ 齐 帅
Exp2后门原理与实践 20154305 _ 齐 帅 2.1简单后门 一.后门工具介绍 1.netcat(nc.ncat) 是一个底层工具,进行基本的TCP UDP数据收发.常被与其他工具结合使用,起 ...
- 实验三《敏捷开发与XP实践》_实验报告
实验三<敏捷开发与XP实践>_实验报告 一.实验内容和步骤 提交点1: 任务要求: 实验三 敏捷开发与XP实践 http://www.cnblogs.com/rocedu/p/479577 ...
- 在TensorFlow中基于lstm构建分词系统笔记
在TensorFlow中基于lstm构建分词系统笔记(一) https://www.jianshu.com/p/ccb805b9f014 前言 我打算基于lstm构建一个分词系统,通过这个例子来学习下 ...
- RESTful接口设计原则/最佳实践(学习笔记)
RESTful接口设计原则/最佳实践(学习笔记) 原文地址:http://www.vinaysahni.com/best-practices-for-a-pragmatic-restful-api 1 ...
- 《疯狂前端开发讲义jQuery+Angular+Bootstrap前端开发实践》学习笔记
<疯狂前端开发讲义jQuery+Angular+Bootstrap前端开发实践>学习笔记 二〇一九年二月十三日星期三2时28分54秒 前提:本书适合有初步HTML.CSS.JavaScri ...
- 20180929 北京大学 人工智能实践:Tensorflow笔记04
20180929 北京大学 人工智能实践:Tensorflow笔记03(2018-09-30 00:01)
- 20180929 北京大学 人工智能实践:Tensorflow笔记01
北京大学 人工智能实践:Tensorflow笔记 https://www.bilibili.com/video/av22530538/?p=13 (完)
随机推荐
- es第十篇:Elasticsearch for Apache Hadoop
es for apache hadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce.hive.pig.cascading.spark)与es交互. A ...
- wiz笔记
分享本地的wiz笔记到网上 , 成为博客 博客园 http://www.cnblogs.com/您的博客名称/services/metablogapi.aspx // region 图片里面的字段:从 ...
- 3dsmax2017卸载/安装失败/如何彻底卸载清除干净3dsmax2017注册表和文件的方法
3dsmax2017提示安装未完成,某些产品无法安装该怎样解决呢?一些朋友在win7或者win10系统下安装3dsmax2017失败提示3dsmax2017安装未完成,某些产品无法安装,也有时候想重新 ...
- h5空白页面过渡加载
h5空白页面过渡加载 页面第一部分内容是图片,考虑到手机图片加载慢,想用简单.转化为base64的图片过渡 开始尝试将图片转为灰度图片,结果还是很大. 后来选取重要元素,保存2位的png,尺寸是494 ...
- [PY3]——求TopN/BtmN 和 排序问题的解决
需求 K长的序列,求TopN K长的序列,求BtmN 排序问题 解决 heap.nlargest().heap.nsmallest( ) sorted( )+切片 max( ).min( ) 总结和比 ...
- 使用Charles为Android设备抓取https请求的包
之前开发的Android APP使用的都是http请求,之后改成了https,就出现了以下情况,无法正常读取抓取的内容 找了好多资料说法大概差不多,照着弄,结果出现如下情况,后来发现这种情况其实是手机 ...
- YII框架一个请求的生命周期
用户向入口脚本 web/index.php 发起请求. 入口脚本加载应用配置并创建一个应用实例去处理请求. 应用通过请求组件解析请求的路由. 应用创建一个控制器实例去处理请求. 控制器创建一个操作实例 ...
- Be opinionated out of the box but get out of the way quickly as requirements start to diverge from
Be opinionated out of the box but get out of the way quickly as requirements start to diverge from t ...
- 任意表格(table)实现拖动列(column)改变列大小
直接上代码吧,原理可以看我上一篇博文.本实现基于jquery,完美实现拖动改变表格的列大小功能,只需将代码放置在你页面的底部即可(jquery必须先引入). $(function () { var i ...
- UVA 10328(DP,大数,至少连续)
http://acm.hust.edu.cn/vjudge/problem/viewProblem.action?id=19825 这道题和http://www.cnblogs.com/qlky/p/ ...