PRML读书会第十三章 Sequential Data（Hidden Markov Models，HMM）

主讲人张巍

（新浪微博: @张巍_ISCAS）

软件所-张巍<zh3f@qq.com> 19:01:27
我们开始吧，十三章是关于序列数据，现实中很多数据是有前后关系的，例如语音或者DNA序列，例子就不多举了，对于这类数据我们很自然会想到用马尔科夫链来建模：

例如直接假设观测数据之间服从一阶马尔科夫链，这个假设显然太简单了，因为很多数据时明显有高阶相关性的，一个解决方法是用高阶马尔科夫链建模：

但这样并不能完全解决问题：1、高阶马尔科夫模型参数太多；2、数据间的相关性仍然受阶数限制。一个好的解决方法，是引入一层隐变量，建立如下的模型：

这里我们假设隐变量之间服从一阶马尔科夫链，观测变量由其对应的隐变量生成。从上图可以看出，隐变量是一阶的，但是观测变量之间是全相关的，今天我们主要讨论的就是上图中的模型。如果隐变量是离散的，我们称之为Hidden Markov Models；如果是连续的，我们称之为: Linear Dynamical Systems。现在我们先来看一下HMM ，从图中可以看出，要完成建模，我们需要指定一下几个分布：
1、转移概率：

2、马尔科夫链的初始概率：

3、生成观测变量的概率(emission probabilities)：

对于HMM，这里1和2我们已经假设成了离散分布，由隐变量Zn生成观测数据可以用混合高斯模型或者神经网络，书上的Zn是一个k维的布尔变量，由此再看隐变量转移概率公式、观测数据的生成公式就容易理解了。模型建好了，我们接下来主要讨论下面三个问题：
1、学习问题：就是学习模型中的参数；
2、预测问题：即,给定当前序列预测下一个观测变量；
3、解码问题：即p(Z|X)，给定观测变量求隐变量，例如语音识别；

游侠(419504839) 19:24:21
什么是解码问题？
软件所-张巍<zh3f@qq.com> 19:25:18
例如观测到了一段语音，要求识别其对应的句子。@游侠我前面没怎么举例子，不知道这样说清楚没？
游侠(419504839) 19:27:20
这个和一般说的"推断"一样不
软件所-张巍<zh3f@qq.com> 19:28:27
这个也可以叫推断，只是推断是个比较一般的词汇。
我们来看一下HMM有多少参数要学，对应于刚才说到的三个分布，我们也有三组参数要学。
球猫(250992259) 19:30:46
其实就是假设东西是一个马尔科夫模型生成的。。然后把参数用某种方法弄出来，最后根据模型的输出来给答案……是这样吧？

软件所-张巍<zh3f@qq.com> 19:32:45
@球猫对，都是这个思路，先把参数学出来，然后就可以做任何想要的推断了，在这里所谓的解码问题只是大家比较关心。
软件所-张巍<zh3f@qq.com> 19:32:51
好，继续，我们先来看1、学习问题。这里我们用EM算法来学习HMM的参数：
1、是转移概率对应的转移矩阵；
2、初始概率对应的离散分布参数；
3、观测变量对应的分布参数（这里暂不指定）。
用EM我们要做的就是：
E步里根据当前参数估计隐变量的后验：

M步里最大化下面的期望：

先来看M步，这里相对简单一点，整个模型的全概率展开为：

把13.10代入13.12,我们会发现计算时需要下面两个式子：
和
为了方便，我们就定义：

这样我们在E步就主要求出这两个式子就行了，当然这也就意味着求出了整个后验，利用这两个式子，13.12可以化为：

这个时候就可以用一些通用方法，例如Lagrange来求解了，结果也很简单：

对于观测变量的分布参数，与其具体分布形式相关，如果是高斯：，对应的最优解为：

如果是离散：对应的最优解为：

好，M步就这样，现在来看E步，也是HMM比较核心的地方。刚才我们看到，E步需要求的是：
由马尔科夫的性质，我们可以推出：

其中：

接下来我们就建立和的递推公式

其中：

这样我们从开始，可以递推出所有的，对于，也进行类似的推导：

从上式可以看到是一个逆推过程，所以我们需要初始值，定义13.35并没有明确的定义：

因为z_N后没有观测数据，不过我们可以从，得出:

这样就等于1，现在我们可以方便的求出所有的和了，利用13.13也就可以求出所有的。类似的，我们可以求出：

这样在M步里求解所需要的分布就都求出来了，也就可以用EM来学习HMM的参数了，这里式子比较多，大家自己推一下会比较好理解。

第一个学习问题就这样了，接下来是预测问题，预测问题可以直接推导：

现在就剩最后一个解码问题，也就是argmax_Z{p(Z|X)}，刚才我们在E步已经求出了：

但是现在的问题要复杂一点，因为我们要求概率最大的隐变量序列，用13.13可以求出单个隐变量，但是他们连在一起形成的整个序列可能概率很小，这个问题可以归结为一个动态规划：

我们把HMM化成如上图的样子，最大化后验等价于最大化全概率，对于上图中的边，我们赋值为：
log（）
初始节点赋值为：
log(*p(x_1|z_1)）
其余节点赋值为：
log()
这样任何一个序列Z，其全概率等于exp（Z对应路径上节点和边的值求和），这样，解码问题就转化为一个最长路径问题，用动态规划可以直接求解。大家看这里有没有问题，HMM的主要内容就是这些

接下来的Linear Dynamical Systems 其实和HMM大同小异，只是把离散分布换成了高斯，然后就是第二章公式的反复应用，都是细节问题，就不在这里讲了，大家看看有问题我们可以讨论。这一章还是式子主导的，略过了不少式子，大家推的时候有问题我们可以随时讨论。

天涯游(872352128) 21:09:21
我对hmm 的理解，觉得这麻烦的是概率的理解的了，概率分解才是hmm的核心，当然了还有动态规划了。概率分解其实是实验事件的分解，如前向和后向了，还有就是EM算法了。

PRML读书会讲稿PDF版本以及更多资源下载地址：http://vdisk.weibo.com/u/1841149974

PRML读书会第十三章 Sequential Data（Hidden Markov Models，HMM）的更多相关文章

Hidden Markov Models(HMM) 初理解
1. 一个简单例子
机器学习 Hidden Markov Models 2
Hidden Markov Models 下面我们给出Hidden Markov Models(HMM)的定义,一个HMM包含以下几个要素: ∏=(πi)表示初始状态的向量.A={aij}状态转换矩阵 ...
隐马尔科夫模型(Hidden Markov Models)
链接汇总 http://www.csie.ntnu.edu.tw/~u91029/HiddenMarkovModel.html 演算法笔记 http://read.pudn.com/downloads ...
[综]隐马尔可夫模型Hidden Markov Model (HMM)
http://www.zhihu.com/question/20962240 Yang Eninala杜克大学生物化学博士线性代数收录于编辑推荐 •2216 人赞同 ×××××11月22日已更 ...
理论沉淀：隐马尔可夫模型（Hidden Markov Model, HMM）
理论沉淀:隐马尔可夫模型(Hidden Markov Model, HMM) 参考链接:http://www.zhihu.com/question/20962240 参考链接:http://blog. ...
机器学习 Hidden Markov Models 1
Introduction 通常,我们对发生在时间域上的事件希望可以找到合适的模式来描述.考虑下面一个简单的例子,比如有人利用海草来预测天气,民谣告诉我们说,湿漉漉的海草意味着会下雨,而干燥的海草意味着 ...
隐马尔科夫模型(Hidden Markov Models) 系列之三
转自:http://blog.csdn.net/eaglex/article/details/6418219 隐马尔科夫模型(Hidden Markov Models) 定义隐马尔科夫模型可以用一个 ...
PRML读书会第七章 Sparse Kernel Machines（支持向量机， support vector machine ，KKT条件，RVM）
主讲人网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:59:22 大家好,今天一起交流下PRML第7章.第六章核函数里提到,有一类机器学习算法,不是对参数做点估计或求其分 ...
PRML读书会第五章 Neural Networks（神经网络、BP误差后向传播链式求导法则、正则化、卷积网络）
主讲人网神 (新浪微博:@豆角茄子麻酱凉面) 网神(66707180) 18:55:06 那我们开始了啊,前面第3,4章讲了回归和分类问题,他们应用的主要限制是维度灾难问题.今天的第5章神经网络的内 ...

随机推荐

【转】JAVA 8 日期/时间（Date Time）API指南
前言本来想写下Java 8的日期/时间API,发现已经有篇不错的文章了,那就直接转载吧~ PS:主要内容没变,做了部分修改. 原文链接: journaldev 翻译: ImportNew.com - ...
操作linux命令
一.Linux下重启Tomcat 1. 进入tomcat下的bin目录:cd /user/standard/tomcat/bin; 使用关闭命令:./shutdown.sh; 查看Java进程是否关闭 ...
Use Excel Pivot Table as a BI tool
Normally, we have created a table, view in database or cube in SSAS, user can use Excel as a BI tool ...
su,exit,adduser,deluser,usermod,groups
exit 退出当前用户 su 切换到指定用户,缺省表示切换到root用户 adduser 创建一个用户的时候其实是创建了一个用户和同名的用户组,它们都会UID,所属的GID,创建时一个用户属于和自己同 ...
linux下如何打包压缩？解包解压？.tar文件.gz文件
===文件打包.压缩 ==打包 tar [root@521478.com]# tar -cvf etc1.tar /etc //c创建 v详细 f打包后文件名 [root@521478.com]# t ...
android 利用线程刷新UI方法
新建线程new Thread(new Runnable() 线程方法:public void run() private void setAddWidgetEnabled(boolean enable ...
android 判断字符串是否为空与比对["=="与equals（）的区别]
if (s == null || s.equals("")) ; } s.equals("")里面是要比对的字符串声明字符串未赋初始值或值,然后比对就会出错, ...
必须知道的八大种排序算法【java实现】（二）选择排序，插入排序，希尔算法【详解】
一.选择排序 1.基本思想:在要排序的一组数中,选出最小的一个数与第一个位置的数交换:然后在剩下的数当中再找最小的与第二个位置的数交换,如此循环到倒数第二个数和最后一个数比较为止. 2.实例 3.算法 ...
WD硬盘型号信息
买硬盘的时候有时候分不清既然找到了就发上来吧
Machine Learning Algorithms Study Notes(4)—无监督学习（unsupervised learning）
1 Unsupervised Learning 1.1 k-means clustering algorithm 1.1.1 算法思想 1.1.2 k-means的不足之处 1 ...

PRML读书会第十三章 Sequential Data（Hidden Markov Models，HMM）

PRML读书会第十三章 Sequential Data（Hidden Markov Models，HMM）的更多相关文章

随机推荐

热门专题