Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题（sequence tagging problem），由此引入监督学习算法来解决分词问题。

1. HMM

首先，我们将简要地介绍HMM（主要参考了李航老师的《统计学习方法》）。HMM包含如下的五元组：

状态值集合\(Q=\{q_1, q_2, \cdots, q_N\}\)，其中\(N\)为可能的状态数；
观测值集合\(V=\{v_1, v_2, \cdots, v_M\}\)，其中\(M\)为可能的观测数；
转移概率矩阵\(A=\left[ a_{ij} \right]\)，其中\(a_{ij}\)表示从状态\(i\)转移到状态\(j\)的概率；
发射概率矩阵（在[2]中称之为观测概率矩阵）\(B=\left[ b_{j}(k) \right]\)，其中\(b_{j}(k)\)表示在状态\(j\)的条件下生成观测\(v_k\)的概率；
初始状态分布\(\pi\).

一般地，将HMM表示为模型\(\lambda = (A, B, \pi)\)，状态序列为\(I\)，对应测观测序列为\(O\)。对于这三个基本参数，HMM有三个基本问题：

概率计算问题，在模型\(\lambda\)下观测序列\(O\)出现的概率；
学习问题，已知观测序列\(O\)，估计模型\(\lambda\)的参数，使得在该模型下观测序列\(P(O|\lambda)\)最大；
解码（decoding）问题，已知模型\(\lambda\)与观测序列\(O\)，求解条件概率\(P(I|O)\)最大的状态序列\(I\)。

2. 中文分词

将状态值集合\(Q\)置为\(\{ B, E, M, S\}\)，分别表示词的开始、结束、中间（begin、end、middle）及字符独立成词（single）；观测序列即为中文句子。比如，“今天天气不错”通过HMM求解得到状态序列“B E B E B E”，则分词结果为“今天/天气/不错”。

通过上面例子，我们发现中文分词的任务对应于解码问题：对于字符串\(C=\{ c_1, \cdots, c_n \}\)，求解最大条件概率

\[\max P(t_1, \cdots, t_n | c_1, \cdots, c_n)
\]

其中，\(t_i\)表示字符\(c_i\)对应的状态。应如何求解状态序列呢？解决的办法便是Viterbi算法；其实，Viterbi算法本质上是一个动态规划算法，利用到了状态序列的最优路径满足这样一个特性：最优路径的子路径也一定是最优的。定义在时刻\(t\)状态为\(i\)的概率最大值为\(\delta_t(i)\)，则有递推公式：

\begin{equation}

\delta_{t+1}(i) = \max { [\delta_t(j) a_{ji}] b_i(o_{t+1}) }

\label{eq:hmm}

\end{equation}

其中，\(o_{t+1}\)即为字符\(c_{t+1}\)。

3. 开源实现

以下的源码分析基于Jieba 0.36版本。

Jieba的jieba.finalseg实现HMM中文分词。prob_start.py定义初始状态分布\(\pi\)：

P={'B': -0.26268660809250016,

 'E': -3.14e+100,

 'M': -3.14e+100,

 'S': -1.4652633398537678}

prob_trans.py转移概率矩阵\(A\)：

P={'B': {'E': -0.510825623765990, 'M': -0.916290731874155},

 'E': {'B': -0.5897149736854513, 'S': -0.8085250474669937},

 'M': {'E': -0.33344856811948514, 'M': -1.2603623820268226},

 'S': {'B': -0.7211965654669841, 'S': -0.6658631448798212}}

prob_emit.py定义了发射概率矩阵\(B\)，比如，P("和"|M)表示状态为M的情况下出现“和”这个字的概率；

P={'B': {'一': -3.6544978750449433,

       '丁': -8.125041941842026,

       '七': -7.817392401429855,

    ...}

 'S': {':': -15.828865681131282,

       '一': -4.92368982120877,

       ...}

 ...}

关于训练模型的生成，作者在这里有解释，来源主要有两个：标准的切分语料 + ICTCLAS切分的txt小说。还有一个大家可能会疑惑的问题，为什么Jieba中的概率矩阵中出现了负数？不急，我们先来看看Viterbi算法的实现——jieba.finalseg.viterbi函数：

PrevStatus = {

    'B': 'ES',

    'M': 'MB',

    'S': 'SE',

    'E': 'BM'

}

def viterbi(obs, states, start_p, trans_p, emit_p):

    V = [{}]  # tabular

    path = {}

    for y in states:  # init

        V[0][y] = start_p[y] + emit_p[y].get(obs[0], MIN_FLOAT)

        path[y] = [y]

    for t in xrange(1, len(obs)):

        V.append({})

        newpath = {}

        for y in states:

            em_p = emit_p[y].get(obs[t], MIN_FLOAT)

            (prob, state) = max(

                [(V[t - 1][y0] + trans_p[y0].get(y, MIN_FLOAT) + em_p, y0) for y0 in PrevStatus[y]])

            V[t][y] = prob

            newpath[y] = path[state] + [y]

        path = newpath

    (prob, state) = max((V[len(obs) - 1][y], y) for y in 'ES')

    return (prob, path[state])

为了适配中文分词任务，Jieba对Viterbi算法做了如下的修改：

状态转移时应满足PrevStatus条件，即状态\(B\)的前一状态只能是\(E\)或者\(S\)，...
最后一个状态只能是\(E\)或者\(S\)，表示词的结尾。

与此同时，Jieba在实现公式\eqref{eq:hmm}时，对其求对数，将相乘转化成了相加：

\[\ln \delta_{t+1}(i) = \max \{ \ln \delta_t(j) + \ln a_{ji} + \ln b_i(o_{t+1}) \}
\]

这就回答了上面的问题——为什么概率矩阵中出现了负数，是因为对其求了对数。

Jieba的HMM分词：

from jieba.finalseg import cut

sentence = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"

print('/'.join(cut(sentence)))

分词结果为“小明/硕士/毕业于/中国/科学院/计算/所/，/后/在/日/本京/都/大学/深造”，我们发现：关于“日本京都”出现分词错误的情况。这是因为最大条件概率\(P(I|O)\)对应的状态序列不一定是分词正确的标注序列。此外，HMM做了两个基本假设：

齐次Markov性假设，即任意时刻t的状态仅与前一时刻状态相关，与其他时刻的状态、时刻t均无关；
观测独立性假设，任意时刻t的观测仅依赖于该时刻HMM的状态，与其他的观测及状态均无关。

HMM受限于这两个假设（字符\(c_t\)仅与前一字符\(c_{t-1}\)相关），而不能学习到更多的特征，泛化能力有限。

4. 参考资料

[1] Xue, Nianwen. "Chinese word segmentation as character tagging." Computational Linguistics and Chinese Language Processing 8.1 (2003): 29-48.

[2] 李航. "统计学习方法." 清华大学出版社, 北京 (2012).

[3] Itenyh, Itenyh版-用HMM做中文分词二：模型准备.

[4] Django梦之队, 对Python中文分词模块结巴分词算法过程的理解和分析.（源链接挂了，为转载链接）

【中文分词】隐马尔可夫模型HMM的更多相关文章

隐马尔科夫模型HMM（四）维特比算法解码隐藏状态序列
隐马尔科夫模型HMM(一)HMM模型隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数隐马尔科夫模型HMM(四)维特比算法解码隐藏状态 ...
HMM：隐马尔可夫模型HMM
http://blog.csdn.net/pipisorry/article/details/50722178 隐马尔可夫模型隐马尔可夫模型(Hidden Markov Model,HMM)是统计模 ...
猪猪的机器学习笔记（十七）隐马尔科夫模型HMM
隐马尔科夫模型HMM 作者:樱花猪摘要: 本文为七月算法(julyedu.com)12月机器学习第十七次课在线笔记.隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来 ...
机器学习之隐马尔科夫模型HMM（六）
摘要隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔科夫过程.其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来作进一步 ...
隐马尔科夫模型 HMM(Hidden Markov Model)
本科阶段学了三四遍的HMM,机器学习课,自然语言处理课,中文信息处理课:如今学研究生的自然语言处理,又碰见了这个老熟人: 虽多次碰到,但总觉得一知半解,对其了解不够全面,借着这次的机会,我想要直接搞定 ...
基于隐马尔科夫模型(HMM)的地图匹配(Map-Matching)算法
文章目录 1. 1. 摘要 2. 2. Map-Matching(MM)问题 3. 3. 隐马尔科夫模型(HMM) 3.1. 3.1. HMM简述 3.2. 3.2. 基于HMM的Map-Matchi ...
隐马尔科夫模型HMM学习最佳范例
谷歌路过这个专门介绍HMM及其相关算法的主页:http://rrurl.cn/vAgKhh 里面图文并茂动感十足,写得通俗易懂,可以说是介绍HMM很好的范例了.一个名为52nlp的博主(google ...
隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率
隐马尔科夫模型HMM(一)HMM模型隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法 ...
隐马尔科夫模型HMM（一）HMM模型
隐马尔科夫模型HMM(一)HMM模型基础隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比 ...
隐马尔科夫模型HMM（三）鲍姆-韦尔奇算法求解HMM参数
隐马尔科夫模型HMM(一)HMM模型隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法 ...

随机推荐

C#中那些[举手之劳]的性能优化
隔了很久没写东西了,主要是最近比较忙,更主要的是最近比较懒...... 其实这篇很早就想写了工作和生活中经常可以看到一些程序猿,写代码的时候只关注代码的逻辑性,而不考虑运行效率其实这对大多数程序猿 ...
Java数据库连接技术——JDBC
大家好,今天我们学习了Java如何连接数据库.之前学过.net语言的数据库操作,感觉就是一通百通,大同小异. JDBC是Java数据库连接技术的简称,提供连接各种常用数据库的能力. JDBC API ...
Matlab 绘制三维立体图（以地质异常体为例）
前言:在地球物理勘探,流体空间分布等多种场景中,定位空间点P(x,y,x)的物理属性值Q,并绘制三维空间分布图,对我们洞察空间场景有十分重要的意义. 1. 三维立体图的基本要件: 全空间网格化网格节 ...
InstallShield 脚本语言学习笔记
InstallShield脚本语言是类似C语言,利用InstallShield的向导或模板都可以生成基本的脚本程序框架,可以在此基础上按自己的意愿进行修改和添加. 一.基本语法规则 ...
CSharpGL(33)使用uniform块来优化对uniform变量的读写
CSharpGL(33)使用uniform块来优化对uniform变量的读写 +BIT祝威+悄悄在此留下版了个权的信息说: Uniform块如果shader程序变得比较复杂,那么其中用到的unifo ...
C#通过NPOI操作Excel
参考页面: http://www.yuanjiaocheng.net/webapi/create-crud-api-1-post.html http://www.yuanjiaocheng.net/w ...
NodeJs支付宝移动支付签名及验签
非常感谢 :http://www.jianshu.com/p/8513e995ff3a?utm_campaign=hugo&utm_medium=reader_share&utm_co ...
Javascript中的valueOf与toString
基本上,javascript中所有数据类型都拥有valueOf和toString这两个方法,null除外.它们俩解决javascript值运算与显示的问题,本文将详细介绍,有需要的朋友可以参考下. t ...
git提交项目到已存在的远程分支
今天想提交项目到github的远程分支上,那个远程分支是之前就创建好的,而我的本地关联分支还没创建. 之前从未用github提交到远程分支过,弄了半个钟,看了几篇博文,终于折腾出来.现在把步骤整理 ...
SQL-类型转换函数
CAST ( expression AS data_type)CONVERT ( data_type, expression,[style]) Select '您的班级编号'+ 1 错误这里+是数学 ...