中文分词概述

词是最小的能够独立活动的有意义的语言成分，一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来，而在中文中很难对词的边界进行界定，难以将词划分出来。在汉语中，虽然是以字为最小单位，但是一篇文章的语义表达却仍然是以词来划分的。因此处理中文文本时，需要进行分词处理，将句子转为词的表示，这就是中文分词。

中文分词的三个难题：

分词规则，消除歧义和未登录词识别。

构建完美的分词规则便可以将所有的句子正确的划分，但是这根本无法实现，语言是长期发展自然而然形成的，而且语言规则庞大复杂，很难做出完美的分词规则。

在中文句子中，很多词是由歧义性的，在一句话也可能有多种分词方法。比如：”结婚/的/和尚/未结婚/的“，“结婚/的/和/尚未/结婚/的”，人分辨这样的句子都是问题，更何况是机器。

此外对于未登陆词，很难对其进行正确的划分。

目前主流分词方法：

基于规则，基于统计以及二者混合。

基于规则的分词：

主要是人工建立词库也叫做词典，通过词典匹配的方式对句子进行划分。其实现简单高效，但是对未登陆词很难进行处理。主要有正向最大匹配法，逆向最大匹配法以及双向最大匹配法。

正向最大匹配法（FMM）

FMM的步骤是：

（1）从左向右取待分汉语句的m个字作为匹配字段，m为词典中最长词的长度。

（2）查找词典进行匹配。

（3）若匹配成功，则将该字段作为一个词切分出去。

（4）若匹配不成功，则将该字段最后一个字去掉，剩下的字作为新匹配字段，进行再次匹配。

（5）重复上述过程，直到切分所有词为止。

分词的结果为：

逆向最大匹配法（RMM）

RMM的基本原理与FMM基本相同，不同的是分词的方向与FMM相反。RMM是从待分词句子的末端开始，也就是从右向左开始匹配扫描，每次取末端m个字作为匹配字段，匹配失败，则去掉匹配字段前面的一个字，继续匹配。

分词的结果为：

双向最大匹配法（Bi-MM）

Bi-MM是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较，然后按照最大匹配原则，选取词数切分最少的作为结果。据SunM.S.和Benjamin K.T.（1995）的研究表明，中文中90.0%左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0%的句子两种切分方法得到的结果不一样，但其中必有一个是正确的（歧义检测成功），只有不到1.0%的句子，使用正向最大匹配法和逆向最大匹配法的切分虽然重合但是错的，或者两种方法切分不同但结果都不对（歧义检测失败）。

双向最大匹配的规则是：

（1）如果正反向分词结果词数不同，则取分词数量少的那个。

（2）如果分词结果词数相同：

1）分词结果相同，没有歧义，返回任意一个。

2）分词结果不同，返回其中单字数量较少的那个。

比如：上述例子中词数相同，但结果不同，逆向最大匹配法的分词结果单字个数是1，所以返回的是逆向最大匹配法的结果。

分词的结果为：

基于规则的分词，一般较为简单高效，但是词典的维护很大的人力维护，同时对于未登录词也没有很好的解决办法。双向最大匹配结合了正反两种方法的结果，结果较为准确，在实用中文信息处理中使用广泛。

待更新。

详细代码可参考GitHub: 代码连接

参考书籍:

《Python自然语言处理实战-核心技术与算法》涂铭，刘祥，刘树春著

《统计自然语言处理》宗成庆著

NLP系列-中文分词（基于词典）的更多相关文章

NLP系列-中文分词（基于统计）
上文已经介绍了基于词典的中文分词,现在让我们来看一下基于统计的中文分词. 统计分词: 统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就 ...
【NLP】中文分词：原理及分词算法
一.中文分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...
SCWS中文分词，词典词性标注详解
SCWS中文分词词典条目多达26万条之巨,在整理的时候已经把很多明显不对的标注或词条清理了 ---- 附北大词性标注版本 ----Ag 形语素形容词性语素.形容词代码为a,语素代码g前面置以A. a ...
【nlp】中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析
分词算法设计中的几个基本原则: 1.颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安局长”.“公安局长” ...
基于CRF的中文分词
http://biancheng.dnbcw.info/java/341268.html CRF简介 Conditional Random Field:条件随机场,一种机器学习技术(模型) CRF由J ...
NLP舞动之中文分词浅析（一）
一.简介针对现有中文分词在垂直领域应用时,存在准确率不高的问题,本文对其进行了简要分析,对中文分词面临的分词歧义及未登录词等难点进行了介绍,最后对当前中文分词实现的算法原理(基于词表. ...
开源中文分词工具探析（五）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
开源中文分词工具探析（六）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
PHP+mysql数据库开发搜索功能：中英文分词+全文检索（MySQL全文检索+中文分词（SCWS））
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词: a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...

随机推荐

【题解】洛谷P3166 [CQOI2014] 数三角形（组合+枚举）
洛谷P3166:https://www.luogu.org/problemnew/show/P3166 思路用组合数求出所有的3个点组合(包含不合法的) 把横竖的3个点共线的去掉把斜的3个点共线的 ...
deep learning学习记录三
deep learning,这几年有多火!! imagenet比赛,大家今年都是基于去年的基础上改进和应用的,效果比去年提升当然. 在deep learning方向,hinton, benjio, l ...
Openresty最佳案例 | 第8篇：RBAC介绍、sql和redis模块工具类
转载请标明出处: http://blog.csdn.net/forezp/article/details/78616738 本文出自方志朋的博客 RBAC介绍 RBAC(Role-Based Acce ...
Struts2的动态方法,及result跳转方式,全局结果以及默认的action的配置
Action动态方法的调用首先我们需要在struts.xml中去配置一个常量值如下那么去哪找呢?找到Struts-core.jar并打开 method属性 <action name=&quo ...
用bootstrap框架弄的网站。（首页）
网站的每一处代码都加上注解,以便浏览! 效果图: <!doctype html> <html lang="zh-cn"> <head> ...
13.6 模拟事件【JavaScript高级程序设计第三版】
事件,就是网页中某个特别值得关注的瞬间.事件经常由用户操作或通过其他浏览器功能来触发. 但很少有人知道,也可以使用JavaScript 在任意时刻来触发特定的事件,而此时的事件就如同浏览器创建的事件一 ...
dedecms织梦首页被篡改网站被黑被跳转的解决办法建议
2018年的中秋节即将来临,我们Sine安全公司,最近接到很多用dedecms程序的企业公司网站客户的反馈,说是公司网站经常被篡改,包括网站首页的标题内容以及描述内容,都被改成了什么北京赛车,北京PK ...
POJ 3210 ： Coins
参考:https://blog.csdn.net/u010885899/article/details/46636523 http://kqwd.blog.163.com/blog/static/41 ...
「LibreOJ#516」DP 一般看规律
首先对于序列上一点,它对答案的贡献只有与它的前驱和后驱(前提颜色相同)构成的点对, 于是想到用set维护每个颜色,修改操作就是将2个set暴力合并(小的向大的合并),每次插入时更新答案即可颜色数要离 ...
笔记-flask-原理及请求处理流程
笔记-flask-原理及请求处理流程 1. 服务器声明及运行最基本的flask项目代码如下 from flask import Flask app = Flask(__name__) @a ...

NLP系列-中文分词（基于词典）

中文分词概述

中文分词的三个难题：

目前主流分词方法：

基于规则的分词：

正向最大匹配法（FMM）

逆向最大匹配法（RMM）

双向最大匹配法（Bi-MM）

NLP系列-中文分词（基于词典）的更多相关文章

随机推荐

热门专题