前言

在浅谈分词算法（1）分词中的基本问题我们讨论过基于词典的分词和基于字的分词两大类，在浅谈分词算法（2）基于词典的分词方法文中我们利用n-gram实现了基于词典的分词方法。在（1）中，我们也讨论了这种方法有的缺陷，就是OOV的问题，即对于未登录词会失效在，并简单介绍了如何基于字进行分词，本文着重阐述下如何利用HMM实现基于字的分词方法。

隐马尔可夫模型（Hidden Markov Model，HMM）

首先，我们将简要地介绍HMM。HMM包含如下的五元组：

状态值集合Q={q1,q2,...,qN}，其中N为可能的状态数；
观测值集合V={v1,v2,...,vM}，其中M为可能的观测数；
转移概率矩阵A=[aij]，其中aij表示从状态i转移到状态j的概率；
发射概率矩阵（也称之为观测概率矩阵）B=[bj(k)]，其中bj(k)表示在状态j的条件下生成观测vk的概率；
初始状态分布π.

一般地，将HMM表示为模型λ=(A,B,π)，状态序列为I，对应测观测序列为O。对于这三个基本参数，HMM有三个基本问题：

概率计算问题，在模型λ下观测序列O出现的概率；
学习问题，已知观测序列O，估计模型λ的参数，使得在该模型下观测序列P(O|λ)最大；
解码（decoding）问题，已知模型λ与观测序列O，求解条件概率P(I|O)最大的状态序列I。

HMM分词

在（1）中我们已经讨论过基于字分词，是如何将分词转换为标签序列问题，这里我们简单阐述下HMM用于分词的相关概念。将状态值集合Q置为{B,E,M,S}，分别表示词的开始、结束、中间（begin、end、middle）及字符独立成词（single）；观测序列即为中文句子。比如，“今天天气不错”通过HMM求解得到状态序列“B E B E B E”，则分词结果为“今天/天气/不错”。

通过上面例子，我们发现中文分词的任务对应于解码问题：对于字符串C={c1,...,cn}，求解最大条件概率

其中，ti表示字符ci对应的状态。

两个假设

在求条件概率

我们利用贝叶斯公式可得

类似于n-gram的情况，我们需要作出两个假设来减少稀疏问题：

有限历史性假设: ti 只由 ti-1 决定
独立输出假设：第 i 时刻的接收信号 ci 只由发送信号 ti 决定

即如下：

这样我们就可以将上面的式子转化为：

而在我们的分词问题中状态T只有四种即{B,E,M,S}，其中P(T)可以作为先验概率通过统计得到，而条件概率P(C|T)即汉语中的某个字在某一状态的条件下出现的概率，可以通过统计训练语料库中的频率得出。

Viterbi算法

有了以上东东，我们应如何求解最优状态序列呢？解决的办法便是Viterbi算法；其实，Viterbi算法本质上是一个动态规划算法，利用到了状态序列的最优路径满足这样一个特性：最优路径的子路径也一定是最优的。定义在时刻t状态为i的概率最大值为δt(i)，则有递推公式：

其中，ot+1即为字符ct+1。

代码实现

我们基于HMM实现一个简单的分词器，这里我主要从jieba分词中抽取了HMM的部分[3]，具体逻辑如下：

prob_start.py定义初始状态分布π：

P={'B': -0.26268660809250016,

 'E': -3.14e+100,

 'M': -3.14e+100,

 'S': -1.4652633398537678}

prob_trans.py转移概率矩阵A：

P={'B': {'E': -0.510825623765990, 'M': -0.916290731874155},

 'E': {'B': -0.5897149736854513, 'S': -0.8085250474669937},

 'M': {'E': -0.33344856811948514, 'M': -1.2603623820268226},

 'S': {'B': -0.7211965654669841, 'S': -0.6658631448798212}}

prob_emit.py定义了发射概率矩阵B，比如，P("和"|M)表示状态为M的情况下出现“和”这个字的概率（注：在实际的代码中汉字都用unicode编码表示）；

P={'B': {'一': -3.6544978750449433,

       '丁': -8.125041941842026,

       '七': -7.817392401429855,

    ...}

 'S': {':': -15.828865681131282,

       '一': -4.92368982120877,

       ...}

 ...}

关于模型的训练作者给出了解解释：“来源主要有两个，一个是网上能下载到的1998人民日报的切分语料还有一个msr的切分语料。另一个是我自己收集的一些txt小说，用ictclas把他们切分（可能有一定误差）。然后用python脚本统计词频。要统计的主要有三个概率表：1)位置转换概率，即B（开头）,M（中间),E(结尾),S(独立成词）四种状态的转移概率；2）位置到单字的发射概率，比如P("和"|M)表示一个词的中间出现”和"这个字的概率；3) 词语以某种状态开头的概率，其实只有两种，要么是B，要么是S。”

在seg_hmm.py中viterbi函数如下：

PrevStatus = {

    'B': 'ES',

    'M': 'MB',

    'S': 'SE',

    'E': 'BM'

}

def viterbi(obs, states, start_p, trans_p, emit_p):

    V = [{}]  # tabular

    path = {}

    for y in states:  # init

        V[0][y] = start_p[y] + emit_p[y].get(obs[0], MIN_FLOAT)

        path[y] = [y]

    for t in range(1, len(obs)):

        V.append({})

        newpath = {}

        for y in states:

            em_p = emit_p[y].get(obs[t], MIN_FLOAT)

            (prob, state) = max(

                [(V[t - 1][y0] + trans_p[y0].get(y, MIN_FLOAT) + em_p, y0) for y0 in PrevStatus[y]])

            V[t][y] = prob

            newpath[y] = path[state] + [y]

        path = newpath

    (prob, state) = max((V[len(obs) - 1][y], y) for y in 'ES')

    return (prob, path[state])

为了适配中文分词任务，Jieba对Viterbi算法做了如下的修改：

状态转移时应满足PrevStatus条件，即状态B的前一状态只能是E或者S，...
最后一个状态只能是E或者S，表示词的结尾。

与此同时，这里在实现地推公式时，对其求对数，将相乘转化成了相加：

这也就是概率矩阵中出现了负数，是因为对其求了对数。

实现效果

我们写一个简单的自测函数：

if __name__ == "__main__":

    ifile = ''

    ofile = ''

    try:

        opts, args = getopt.getopt(sys.argv[1:], "hi:o:", ["ifile=", "ofile="])

    except getopt.GetoptError:

        print('seg_hmm.py -i <inputfile> -o <outputfile>')

        sys.exit(2)

    for opt, arg in opts:

        if opt == '-h':

            print('seg_hmm.py -i <inputfile> -o <outputfile>')

            sys.exit()

        elif opt in ("-i", "--ifile"):

            ifile = arg

        elif opt in ("-o", "--ofile"):

            ofile = arg

    with open(ifile, 'rb') as inf:

        for line in inf:

            rs = cut(line)

            print(' '.join(rs))

            with open(ofile, 'a') as outf:

                outf.write(' '.join(rs) + "\n")

运行如下：

完整代码

我将完整的代码放到了github上，同上一篇文章类似，这里代码基本是从结巴抽取过来，方便大家学习查阅，模型我也直接拿过来，并没有重新找语料train，大家可以瞅瞅：

https://github.com/xlturing/machine-learning-journey/tree/master/seg_hmm

参考文献

浅谈分词算法（3）基于字的分词方法（HMM）的更多相关文章

浅谈分词算法（5）基于字的分词方法（bi-LSTM）
目录前言目录循环神经网络基于LSTM的分词 Embedding 数据预处理模型如何添加用户词典前言很早便规划的浅谈分词算法,总共分为了五个部分,想聊聊自己在各种场景中使用到的分词方法做 ...
浅谈分词算法（4）基于字的分词方法（CRF）
目录前言目录条件随机场(conditional random field CRF) 核心点线性链条件随机场简化形式 CRF分词 CRF VS HMM 代码实现训练代码实验结果参考文献 ...
浅谈分词算法基于字的分词方法（HMM）
前言在浅谈分词算法(1)分词中的基本问题我们讨论过基于词典的分词和基于字的分词两大类,在浅谈分词算法(2)基于词典的分词方法文中我们利用n-gram实现了基于词典的分词方法.在(1)中,我们也讨论了 ...
浅谈局域网ARP攻击的危害及防范方法(图)
浅谈局域网ARP攻击的危害及防范方法(图) 作者:冰盾防火墙网站:www.bingdun.com 日期:2015-03-03 自去年5月份开始出现的校内局域网频繁掉线等问题,对正常的教育教 ...
浅谈Tarjan算法及思想
在有向图G中,如果两个顶点间至少存在一条路径,称两个顶点强连通(strongly connected).如果有向图G的每两个顶点都强连通,称G是一个强连通图.非强连通图有向图的极大强连通子图,称为强连 ...
浅谈 Tarjan 算法
目录简述作用 Tarjan 算法原理出场人物图示代码实现例题例题一例题二例题三例题四例题五总结简述对于初学 Tarjan 的你来说,肯定和我一开始学 Tarjan 一样无 ...
浅谈Manacher算法与扩展KMP之间的联系
首先,在谈到Manacher算法之前,我们先来看一个小问题:给定一个字符串S,求该字符串的最长回文子串的长度.对于该问题的求解.网上解法颇多.时间复杂度也不尽同样,这里列述几种常见的解法. 解法一 ...
[Machine Learning] 浅谈LR算法的Cost Function
了解LR的同学们都知道,LR采用了最小化交叉熵或者最大化似然估计函数来作为Cost Function,那有个很有意思的问题来了,为什么我们不用更加简单熟悉的最小化平方误差函数(MSE)呢? 我个人理解 ...
浅谈Tarjan算法
从这里开始预备知识两个数组 Tarjan 算法的应用求割点和割边求点-双连通分量求边-双连通分量求强连通分量预备知识设无向图$G_{0} = (V_{0}, E_{0})$,其中$V_ ...

随机推荐

Oracle 的ORION工具简单使用
1. 下载地址: http://www.oracle.com/technetwork/cn/topics/index-088165-zhs.html 2. linux x64 还有 windows的 ...
PRML读书笔记_绪论曲线拟合部分
一.最小化误差函数拟合正则化( regularization )技术涉及到给误差函数增加一个惩罚项,使得系数不会达到很大的值.这种惩罚项最简单的形式采用所有系数的平方和的形式.这推导出了误差函数的修 ...
python学习笔记九——序列
4.4 序列序列是具有索引和切片能力的集合.元组.列表和字符串具有通过索引访问某个具体的值,或通过切片返回一段切片的能力,因此元组.列表和字符串都属于序列.序列索引功能演示: tuple=(&quo ...
xhtml的3種文檔聲明類型
xhtml有三種文檔聲明類型: strict:使用嚴格的標記,避免語法上的混亂: trasitional:為不支持的css的瀏覽器編寫xhtml時: frameset:利用框架將窗口分割為兩個部分或多 ...
int ,Intege,String 三者之间的转换
注:如果使用JDK5.0的话,JVM会自动完成装包解包的. 1.Integer转换成int的方法 Integer i = new Integer(10); int k = i.intValue();即 ...
string.PadLeft & string.PadRight
比如我想让他的长度是20个字符有很多字符串如string a = "123",只有3个字符怎么让他们在打印或显示在textBox上的时候不够的长度用空格补齐呢? string.Pa ...
普通javabean 获得项目的绝对路径
方式一:String path = RequestContext.class.getResource("/").getFile();
BZOJ3832[Poi2014]Rally——权值线段树+拓扑排序
题目描述 An annual bicycle rally will soon begin in Byteburg. The bikers of Byteburg are natural long di ...
BZOJ1283 序列（费用流）
不妨看做是先用k个指针指向被选择的前k个元素,然后每次将选中当前第一个元素的指针移到最后,并且需要满足位置变化量>=m.显然这样可以构造出所有的合法方案.那么可以以此建立费用流模型,以一条流量k ...
AC自动机-HDU3065-简单题
http://acm.hdu.edu.cn/showproblem.php?pid=3065 需要记录匹配情况的AC自动机,没有清空一些数组导致wa了几发. /*------------------- ...

浅谈分词算法（3）基于字的分词方法（HMM）

前言

目录