HMM模型

通过前几时断续的学习，发现自己对HMM模型的了解还只停留在皮毛，导致在学习CRF模型并将其与最大熵模型、HMM、MEMM做比较时感觉很吃力，所以又花了两天时间使劲看了遍HMM，发现了解得确实深刻了很多，现小结一下，争取把看过的知识变成自己的，特别感谢52nlp网站http://www.52nlp.cn/和崔晓源翻译的HMM相关资料，英文学习网站http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html，中文神马的都是浮云。

每次要学习一点新的东西时，总是想迫切地知道学它是用来干嘛的，然后就是想知道它该怎么用，我觉得这是接触并接受新知识的两个最起码的原则。HMM来源于现实社会的需求，它是为人们服务的，我们通常都习惯于寻找一个事物在一段时间内的变化规律，并能在特定情况下预测下一变化，比如预测天气等。当然HMM还有一些其他的应用，后面还会提到。

既然HMM用处是具有实际意义的，那么下面我们来学习它。

实际生活中，有的时候状态的转变是固定的，如红绿灯的变化规律，下一状态是已知的，这种模式叫确定性的生成模式，而在大多数情况下状态的改变却是不确定的，如根据今天的天气推测明天的天气，这个状态的变化是不明确的，这种模式叫非确定的生成模式，通常我们更倾向于研究非确定性生成模式，所以我们用到了HMM。这里明确一个概念，n阶HMM，意思是说当前的状态只与前n个状态有关，我们通常研究的是1阶HMM，意思是当前状态只与前一状态有关，显然这是不符合现实的一个假设，但它却非常适于分析，同时要注意HMM是与时间无关的一个模型，这也是一个与现实不符的假设。（从此可看出HMM有待改进）

HMM的核心在于思想，算法与两个矩阵。

HMM的两个矩阵为状态转移矩阵（表征状态之间的转移概率）、混淆矩阵（表征特定状态下发射符号（观察值）的概率）。

根据HMM不同的应用，有不同的算法来解决。

主要是三类问题。

① 根据已知的HMM找出一个观察序列的概率—评估

这类问题是假设有若干HMM模型，对应每个模型找出给定观察序列的概率，最大概率对应的模型则是最可能生成该序列的系统。

应用：根据观察序列判断季节，语音识别。

算法——

穷举搜索举例：

对于水藻和天气的关系，我们可以用穷举搜索方法得到下面的状态转移图（trellis）：

图中，sunny,cloudy,rainy表示三个状态，dry,damp,soggy表示观察值，每一列与相邻列的连线由状态转移概率决定，而观察状态和每一列的隐状态则由混淆矩阵（处于某一状态，发射某一观察值的概率）决定。如果用穷举的方法的到某一观察状态序列的概率，就要求所有可能的天气状态序列下的概率之和，这个trellis中共有3*3=27个可能的序列。

可见计算复杂度是很大，特别是当状态空间很大，观察序列很长时。我们可以利用概率的时间不变性解决复杂度。

递归方法（Forward Algorithm）举例：

首先定义部分概率为到达trellis中某一中间状态的概率。把长度为T的观察状态序列表示为：

在计算trellis中某一中间状态的概率时，用所有可能到达该状态的路径之和表示。

比如在t=2时间，状态为cloudy的概率可以用下面的路径计算：

用Pt ( j ) 表示在时间t时状态j的部分概率。计算方法如下：

Pt ( j )= Pr( observation | hidden state is j ) * Pr(all paths to state j at time t)

最后的观察状态的部分概率表示，这些状态所经过的所有可能路径的概率。比如：

这表示最后的部分概率的和即为trellis中所有可能路径的和，也就是当前HMM下观察序列的概率。

我们计算部分概率的公式为:

Pt ( j )= Pr( observation | hidden state is j ) x Pr(all paths to state j at time t)

但是在初始状态，没有路径到达这些状态。那么我们就用probability乘以associated observation probability计算：

这样初始时刻的状态的部分概率就只与其自身的概率和该时刻观察状态的概率有关。

这一算法最后需要的是概率的和。

对于观察序列长度T，穷举法的复杂度为T的指数级；而Forward Algorithm的复杂度为T的线性。

手动计算过程：观察序列为Damp,Soggy,Dry，计算该模型的概率，不同的模型概率不同，概率最大的对应的则是能产生该序列的最可能模型。

状态转移矩阵A：

	Sunny	Cloudy	Rainy
Sunny	0.5	0.25	0.25
Cloudy	0.375	0.125	0.375
Rainy	0.125	0.675	0.375

混淆矩阵B：

	Damp	Soggy	Dry	Dryish
Sunny	0.15	0.05	0.6	0.20
Cloudy	0.25	0.25	0.25	0.25
Rainy	0.35	0.5	0.05	0.10

第一步设置观察序列，初始状态P(Sunny)=0.63,P(Cloudy)=0.17,P(Rainy)=0.20。

第二步，计算初始时刻在状态Sunny下发射符号Damp的概率Alpha1 = (0.63 * 0.15) = 0.094500005。

同理第三步，计算初始时刻在状态Cloudy下发射符号Damp的概率Alpha2 = (0.17 * 0.25) = 0.0425。

第四步，计算初始时刻在状态Rainy下发射符号Damp的概率Alpha3 = (0.2 * 0.35) = 0.07。

第五步，计算第二时刻在状态Sunny下发射符号Soggy的概率，由两部分概率决定，第二时刻到达状态Sunny的所有路径概率之和即为能到达该状态的概率，乘以Sunny发射符号Soggy的概率0.05，Alpha4 = (((0.094500005*0.5) + (0.0425*0.375) + (0.07*0.125)) * 0.05) = 0.0035968751。

同理第六，七步，得到：

Alpha5 = (((0.094500005*0.25) + (0.0425*0.125) + (0.07*0.675)) * 0.25) = 0.019046877

Alpha6 = (((0.094500005*0.25) + (0.0425*0.375) + (0.07*0.375)) * 0.5) = 0.03290625

第八，九，十步，Alpha7 = (((0.0035968751*0.5) + (0.019046877*0.375) + (0.03290625*0.125)) * 0.6) = 0.007832578

Alpha8 = (((0.0035968751*0.25) + (0.019046877*0.125) + (0.03290625*0.675)) * 0.25) = 0.0063729496

Alpha9 = (((0.0035968751*0.25) + (0.019046877*0.375) + (0.03290625*0.375)) * 0.05) = 0.001019082

最后将Alpha7，Alpha8，Alpha9相加即得该模型的概率（产生序列Damp,Soggy,Dry的概率）。

② 根据观察序列找到最有可能的隐状态序列—解码

多数情况下，我们都希望能够根据一个给定的HMM模型，根据观察状态序列找到产生这一序列的潜在的隐含状态序列。

穷举搜索方法举例：

我们可以通过穷举的方式列出所有可能隐含状态序列，并算出每一种隐状态序列组合对应的观察状态序列的概率。概率最大的那个组合对应的就是最可能的隐状态序列组合。

Pr(observed sequence | hidden state combination).

比如说上图中的trellis中，最有可能的隐状态序列是使得概率：

Pr(dry,damp,soggy | sunny,sunny,sunny), Pr(dry,damp,soggy | sunny,sunny,cloudy), Pr(dry,damp,soggy | sunny,sunny,rainy), . . . . Pr(dry,damp,soggy | rainy,rainy,rainy) 得到最大值的序列。

同样这种穷举法的计算量太大了。为了解决这个问题，我们可以利用和Forward algorithm一样的原理--概率的时间不变性来减少计算量。

用递归方式减少复杂度，Viterbi算法：

在给定的观察序列和HMM模型下，我们用一种递归的方式找到最有可能的隐状态序列。同样我们定义部分概率，即在trellis中到达某一中间状态的概率。然后介绍如何在初始时刻t=1和t>1的时刻分别求解这个部分概率。但要注意，这里的部分概率是到达某一中间状态的概率最大的路径而不是所有概率之和。

部分概率和部分最优路径

看如下trellis ：

对于trellis中的每个中间状态和结束状态，都存在一条到达它的最优路径。他可能是下图这样：

我们这些路径为部分最优路径，每一条部分最优路径都对应一个关联概率--部分概率δ。与Forward algorithm不同是最有可能到达该状态的一条路径的概率。

δ (i,t)是所有序列中在t时刻以状态i终止的最大概率。当然它所对应那条路径就是部分最优路径。 δ(i,t)对于每个i,t都是存在的。这样我们就可以在时间T（序列的最后一个状态）找到整个序列的最优路径。

计算在t = 1的初始值

由于在t=1不存在任何部分最优路径，因此可以用初始状态π向量协助计算。

这一点与Forward Algorithm相同。

计算在t > 1 的部分概率

同样我们只用t-1时刻的信息来得到t时刻的部分概率。

由此图可以看出到达X的最优路径是下面中的一条：

(sequence of states), . . ., A, X

(sequence of states), . . ., B, X

(sequence of states), . . ., C, X

我们希望找到一条概率最大的。回想马尔科夫一阶模型的假设，一个状态之和它前一时刻的状态有关。

Pr (most probable path to A) . Pr (X | A) . Pr (observation | X)

因此到达X的最大概率就是：

其中第一部分由t-1时刻的部分概率得到，第二部分是状态转移概率，第三部分是混淆矩阵中对应的概率。

根据最后得到的公式我们可以把概率的求解写成：

考虑下面trellis

现在我们可以得到到达每一个中间或者终点状态的概率最大的路径。但是我们需要采取一些方法来记录这条路径。这就需要在每个状态记录得到该状态最优路径的前一状态。记为：

这样argmax（寻找具有最大评分的参量）操作符就会选择使得括号中式子最大的索引j。

如果有人问，为什么没有乘以混淆矩阵中的观察概率因子。这是因为我们关心的是在到达当前状态的最优路径中，前一状态的信息，而与他对应的观察状态无关。

手动计算过程：给定观察序列找出最有可能的隐状态序列。

设置观察序列。

Delta1 = 0.63 * 0.15 = 0.094500005

Delta2 = 0.17 * 0.25 = 0.0425

Delta3 = 0.2 * 0.35 = 0.07

Delta4 = max ((0.094500005*0.5), (0.0425*0.375), (0.07*0.125)) * 0.05 = 0.0023625002，从前一时刻最有可能到达Sunny状态的路径（Sunny-Sunny），与该时刻发射符号Soggy概率相乘。

Delta5 = max ((0.094500005*0.25), (0.0425*0.125), (0.07*0.675)) * 0.25 = 0.011812501，最有可能到达Cloudy状态的路径（Rainy-Cloudy）。

Delta6 = max ((0.094500005*0.25), (0.0425*0.375), (0.07*0.375)) * 0.5 = 0.0131250005，最有可能到达Rainy状态的路径（Rainy-Rainy）。

Delta7 = max ((0.0023625002*0.5), (0.011812501*0.375), (0.0131250005*0.125)) * 0.6 = 0.0026578128，最有可能到达Sunny状态的路径（Cloudy-Sunny）。

Delta8 = max ((0.0023625002*0.25), (0.011812501*0.125), (0.0131250005*0.675)) * 0.25 = 0.0022148439, 最有可能到达Cloudy状态的路径（Rainy-Cloudy）。

Delta9 = max ((0.0023625002*0.25), (0.011812501*0.375), (0.0131250005*0.375)) * 0.05 = 2.4609375E-4, 最有可能到达Rainy状态的路径（Rainy-Rainy）。

每一步寻找最可能的状态转移，最后可以得到：面对观察序列Damp-Soggy-Dry，最可能的状态转移为Rainy-Cloudy-Sunny。

viterbi算法的两个优点：

1）与Forward算法一样，它极大的降低了计算复杂度

2）viterbi会根据输入的观察序列，“自左向右”的根据上下文给出最优的理解。由于viterbi会在给出最终选择前考虑所有的观察序列因素，这样就避免了由于突然的噪声使得决策偏离正确答案。这种情况在真实的数据中经常出现。

③ 从观察序列中得出HMM—学习

这是最难的HMM应用。也就是根据观察序列和其代表的隐状态，生成一个三元组HMM (,A,B)。使这个三元组能够最好的描述我们所见的一个现象规律。

我们用forward-backward algorithm来解决在现实中经常出现的问题--转移矩阵和混淆矩阵不能直接得到的情况。

这个方向在语音处理数据库上有重要的地位。因为它可以帮助我们在状态空间很大，观察序列很长的环境下找到合适HMM模型参数：初始状态、转移概率、混淆矩阵等。

http://blog.sina.com.cn/s/blog_953f8a550100zh35.html

http://yexin218.iteye.com/blog/432120

HMM模型的更多相关文章

隐马尔科夫模型HMM（一）HMM模型
隐马尔科夫模型HMM(一)HMM模型基础隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比 ...
HMM模型学习笔记（前向算法实例）
HMM算法想必大家已经听说了好多次了,完全看公式一头雾水.但是HMM的基本理论其实很简单.因为HMM是马尔科夫链中的一种,只是它的状态不能直接被观察到,但是可以通过观察向量间接的反映出来,即每一个观察 ...
数学之美——HMM模型（二）解码和Forward算法
上一篇讨论了HMM的基本概念和一些性质,HMM在现实中还是比较常见的,因此也带来一了一系列的HMM应用问题.HMM应用主要面向三个方面:预测.解码和学习.这篇主要讨论预测. 简单来说,预测就是给定HM ...
数学之美——HMM模型（一）介绍
一直想写点关于数学方面的blog,这对于数据挖掘分析,NLP处理等都有着比较重要的作用,之前在CSDN上想写点HMM方面的文章,一直没写成,最近几天终于抽点时间完成了HMM的文章,加以整理,遂有这个系 ...
时序分析：HMM模型（状态空间）
关于HMM模型:时序分析:隐马尔科夫模型 HMM用于手势识别: 训练时每一种手势对应一个HMM-Model,识别率取最大的一个HMM即可. 类似于一个封装的完成多类识别器功能单层网络. 优点: 尤其 ...
HMM 模型输入数据处理的优雅做法来自实际项目
实际项目我是这样做的: def mining_ue_procedures_behavior(seq, lengths, imsi_list): print("seq 3:", se ...
HMM模型学习笔记（维特比算法）
维特比算法(Viterbi) 维特比算法编辑维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中.术语“维特比 ...

随机推荐

CSS选择器详解（伪类）转 http://blog.csdn.net/Panda_m/article/details/50084699
CSS选择器详解之伪类伪类对大小写不敏感结构伪类选择器结构伪类是CSS3新增的类型选择器,利用DOM树实现元素过滤,通过文档结构的相互关系来匹配元素,可以减少class和id属性的定义,使文 ...
Eclipse用法和技巧十二：快速复制一行
写代码的总有那么个时候需要Ctrl+c,Ctrl+v,在eclipse中如果遇到需要快速在一行代码的上下复制一行的话,有很方便的快捷键可以使用.将光标放到某一行,按住Ctrl+Alt+Down,即可以 ...
SQL 主键和外键约束
SQL的主键和外键的作用: 外键取值规则:空值或参照的主键值. (1)插入非空值时,如果主键表中没有这个值,则不能插入. (2)更新时,不能改为主键表中没有的值. (3)删除主键表记录时,你可以在建外 ...
UVa 567: Risk
这是一道很简单的图论题,只要使用宽度优先搜索(BFS)标记节点间距离即可. 我的解题代码如下: #include <iostream> #include <cstdio> #i ...
【转】Eclipse上安装GIT插件EGit及使用
http://yufenfei.iteye.com/blog/1750124 一.Eclipse上安装GIT插件EGit Eclipse的版本eclipse-java-helios-SR2-win32 ...
C# winform如何在textbox中判断输入的是字母还是数字?
1.用正规式using System.Text.RegularExpressions; string pattern = @"^\d+(\.\d)?$";if(Text1.Text ...
利用WinDriver开发PCI设备驱动程序
摘要 WinDriver是Jungo公司出版的一个设备驱动程序开发组件,它可以大大加速PCI设备驱动程序的开发.作者在实际的项目中采用了WinDriver来开发设备驱动程序,取得了相当好的运行效果.从 ...
swift 版本 UItableViewCell的动态高度补足
用swift的朋友们很多都是从ios8开发了, 其中针对table cell高度自动计算的 UITableViewAutomaticDimension 异常好用,但好像只对uilabel对象有效 ...
Win32下 Qt与Lua交互使用：配置Qt下Lua运行环境
Lua与C++之间可以实现非常强的交互性.Lua中可以使用C++中的函数,C++中也可以使用Lua中的函数.由此可以引发出很多奇思妙想了. 简单来说,Lua动态的特性补充了C++的功能.当然,也看你具 ...
装有Win7系统的电脑在局域网不能共享的解决方案
Win7系统的网络功能比XP有了进一步的增强,使用起来也相对清晰.但是由于做了很多表面优化的工作,使得底层的网络设置对于习惯了XP系统的人来说变得很不适应,其中局域网组建就是一个很大的问题.默认安装系 ...

HMM模型

HMM模型的更多相关文章

随机推荐

热门专题