上文已经介绍了基于词典的中文分词，现在让我们来看一下基于统计的中文分词。

统计分词：

统计分词的主要思想是把每个词看做是由字组成的，如果相连的字在不同文本中出现的次数越多，就证明这段相连的字很有可能就是一个词。

统计分词一般做如下两步操作：

1.建立统计语言模型（n-gram）

2.对句子进行单词划分，然后对划分结果做概率计算，获取概率最大的分词方式。这里就用到了统计学习算法，如隐马尔科夫模型（HMM），条件随机场（CRF）等

语言模型：

语言模型在信息检索，机器翻译，语音识别中承担着重要的任务。这种模型结构简单，直接，但同时也因为数据缺乏而必须采取平滑算法。这里主要介绍n元语言模型（n-gram）。

假设S表示长度为i，由（W1,W2,....,Wi）字序列组成的句子，则代表S的概率为：

P(S) = P(W1,W2,...,Wi) = P(W1)*P(W2|W1)*P(W3|W2,W1)....P(Wi|W1,W2,...,Wi-1)

即每个字的出现都与他之前出现过的字有关，最后整个句子S的概率为这些字概率的乘积。但是这个计算量很大，所以在这里我们可以利用马尔科夫假设，即当前词只与最多前n-1个有限的词相关：

当n＝1时，即出现在第i位上的词Wi独立于历史时，一元文法被记作uni-gram，一元语言模型可以记作：

uni-gram

当n＝2时，即出现在第i位上的词wi仅与它前面的一个历史词wi-1有关，二元文法模型被称为一阶马尔可夫链（Markov chain），记作bi-gram，二元语言模型可以记作：

bi-gram

当n＝3时，即出现在第i位置上的词wi仅与它前面的两个历史词wi-2和wi-1有关，三元文法模型被称为二阶马尔可夫链，记作tri-gram，三元语言模型可以记作：

tri-gram

在实际应用中，一般使用频率计数的比例来计算n元条件概率。

基于HMM的分词：

隐含马尔可夫模型（HMM）是将分词作为字在句子中的序列标注任务来实现的（关于HMM稍后会在另一篇文章中详细介绍）。其基本思路是：每个字在构造一个特定词语时都占据着一个特定的位置即词位，一般采用四结构词位：B（词首），M（词中），E（词尾）和S（单独成词）。比如：

'中文/分词/是/文本处理/不可或缺/的/一步/！'，

标注后的形式：

'中/B 文/E 分/B 词/E 是/S 文/B 本/M 处/M 理/E 不/B 可/M 或/M 缺/E 的/S 一/B 步/E ！/S'。

其中，词位序列代表着HMM中不可见的隐藏状态序列，而训练集中的文本则为可见的观测序列。这样就变成了已知观测序列，求未知的隐藏序列的HMM问题。

本篇文章中，我们使用有标记的监督学习去训练HMM的参数，无监督学习的Baum-Welch方法（EM）会后续更新到本文中。

实现主要分为三步:

1.使用已经分好词的训练集去训练HMM模型，计算频数得到HMM的三要素（初始状态概率，状态转移概率和发射概率）。

训练HMM参数

2.使用Viterbi算法以及训练好的三个概率矩阵，将待分词的句子转换为'BMES'类型的状态序列。

Viterbi求最大概率序列

3.根据已经求出的状态序列，划分句子进行分词。

分词

最后测试结果:

训练参数

读取模型并分词

本文实现的HMM分词模型比较简单，分词效果依赖于训练集文本语料库的规模，所以要想得到更好的性能，需要花费人力维护语料库。

待更新。

详细代码可参考GitHub: 代码连接

参考书籍:

《Python自然语言处理实战-核心技术与算法》涂铭，刘祥，刘树春著

《统计自然语言处理》宗成庆著

NLP系列-中文分词（基于统计）的更多相关文章

NLP系列-中文分词（基于词典）
中文分词概述词是最小的能够独立活动的有意义的语言成分,一般分词是自然语言处理的第一项核心技术.英文中每个句子都将词用空格或标点符号分隔开来,而在中文中很难对词的边界进行界定,难以将词划分出来.在汉语 ...
Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
【NLP】中文分词：原理及分词算法
一.中文分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...
【nlp】中文分词基础原则及正向最大匹配法、逆向最大匹配法、双向最大匹配法的分析
分词算法设计中的几个基本原则: 1.颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“公安局长”可以分为“公安局长”.“公安局长” ...
中文分词实践（基于R语言）
背景:分析用户在世界杯期间讨论最多的话题. 思路:把用户关于世界杯的帖子拉下来.然后做中文分词+词频统计,最后将统计结果简单做个标签云.效果例如以下: 兴许:中文分词是中文信息处理的基础.分词之后.事 ...
NLP舞动之中文分词浅析（一）
一.简介针对现有中文分词在垂直领域应用时,存在准确率不高的问题,本文对其进行了简要分析,对中文分词面临的分词歧义及未登录词等难点进行了介绍,最后对当前中文分词实现的算法原理(基于词表. ...
开源中文分词工具探析（五）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
开源中文分词工具探析（六）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
PHP+mysql数据库开发搜索功能：中英文分词+全文检索（MySQL全文检索+中文分词（SCWS））
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词: a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...

随机推荐

Android学习笔记_76_Android ProgressBar 进度条
android 进度条的样式例1:(默认样式(中等圆形))Xml代码 <ProgressBar android:id="@+id/progressBar1" ...
分布式id生成
2016年08月09日 14:15:21 yuanyuanispeak 阅读数:318 编辑一.需求缘起几乎所有的业务系统,都有生成一个记录标识的需求,例如: (1)消息标识:message-id ...
第13届景驰-埃森哲杯广东工业大学ACM程序设计大赛--D-psd面试
链接:https://www.nowcoder.com/acm/contest/90/D 来源:牛客网 1.题目描述掌握未来命运的女神 psd 师兄在拿了朝田诗乃的 buff 后决定去实习. 埃森哲 ...
【网络流】EK算法及其优化
今天上午我仿佛知道了什么叫做网络流,这里推荐一篇博客,大家入门网络流的可以看一下这篇博客,保证一看就懂! 博客链接: 网络流入门这里有一篇经过我改过的EK带注释代码(博客里也有一样的,只是加了一些注 ...
SpringMVC中session使用&&拦截器&&乱码处理&&异常处理
### 1. 使用Session 通常,会在Session中存放: 1. 客户端(用户)的身份标识,通常是用户的id:2. 使用频率非常高的数据,例如显示在页面中的用户名.头像等:3. 其它的不便于使 ...
Linux实战教学笔记
Linux实战教学笔记01:计算机硬件组成与基本原理 Linux实战教学笔记02:计算机系统硬件核心知识 Linux实战教学笔记03:操作系统发展历程及系统版本选择 Linux实战教学笔记04:Lin ...
winform Treeview控件使用
做角色菜单权限时用到treeview控件做树状显示菜单,简单总结了一下用法: 1.在winform窗体中拖入treeview控件,注意修改属性CheckBoxes属性为true,即在节点旁显示复选框 ...
css实现下拉菜单功能（多中实现方式即原理）
引导思路: 1.需要用到的元素:position hover (z-index) 或(overflow)或(display)等等. 关键点就是div的溢出部分的处理. 2.实现过程: 2.1:就是要 ...
web pack
WebPack是模块捆绑器,如果你的代码跨越了不同模块(例如不同Javascript文件),web pack可以将这些零散的代码构建到浏览器可读单个文件中. web pack还可以作为构建通道,你可以 ...
Asp.Net Core 使用Docker进行容器化部署（一）
前几篇文章介绍了Liunx下的环境搭建,今天来分享一下.Net Core在Liunx上的部署. 我采用的方案是使用Dokcer作为运行虚拟机,Nginx作为Http服务器来进行反向代理,你可以理解为D ...

NLP系列-中文分词（基于统计）