本系列文章摘自 52nlp(我爱自然语言处理: http://www.52nlp.cn/),原文链接在 HMM 学习最佳范例,这是针对 国外网站上一个 HMM 教程 的翻译,作者功底很深,翻译得很精彩,且在原文的基础上还提供了若干程序实例,是初学者入门 HMM 的好材料.原文中存在若干笔误,这里结合 HMM 学习最佳范例 的作者和读者的建议,一并做了修改,供大家参考. 相关链接 HMM 自学教程(一)引言 HMM 自学教程(二)生成模型 HMM 自学教程(三)隐藏模式 HMM 自学教程(四)隐马…
最近研究NLP颇感兴趣,但由于比较懒,所以只好找来网上别人的比较好的博客,备份一下,也方便自己以后方便查找(其实,一般是不会再回过头来看的,嘿嘿 -_-!!) 代码自己重新写了一遍,所以就不把原文代码贴过来了. 1. 前向算法(摘自http://www.cnblogs.com/kaituorensheng/archive/2012/12/01/2797230.html) 隐马模型的评估问题即,在已知一个观察序列O=O1O2...OT,和模型μ=(A,B,π}的条件下,观察序列O的概率,即P(O|…
隐马尔科夫模型HMM(一)HMM模型 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列(TODO) 在隐马尔科夫模型HMM(一)HMM模型中,我们讲到了HMM模型的基础知识和HMM的三个基本问题,本篇我们就关注于HMM第一个基本问题的解决方法,即已知模型和观测序列,求观测序列出现的概率. 1. 回顾HMM问题一:求观测序列的概率 首先我们回顾下HMM模型的问题一.这个…
条件随机场CRF(一)从随机场到线性链条件随机场 条件随机场CRF(二) 前向后向算法评估标记序列概率 条件随机场CRF(三) 模型学习与维特比算法解码 在条件随机场CRF(一)中我们总结了CRF的模型,主要是linear-CRF的模型原理.本文就继续讨论linear-CRF需要解决的三个问题:评估,学习和解码.这三个问题和HMM是非常类似的,本文关注于第一个问题:评估.第二个和第三个问题会在下一篇总结. 1. linear-CRF的三个基本问题 在隐马尔科夫模型HMM中,我们讲到了HMM的三个…
1. kd树简介 构造kd树的方法如下:构造根结点,使根结点对应于k维空间中包含所有实例点的超矩形区域;通过下面的递归方法,不断地对k维空间进行切分,生成子结点.在超矩形区域(结点)上选择一个坐标轴和在此坐标轴上的一个切分点,确定一个超平面,这个超平面通过选定的切分点并垂直于选定的坐标轴,将当前超矩形区域切分为左右两个子区域(子结点);这时,实例被分到两个子区域.这个过程直到子区域内没有实例时终止(终止时的结点为叶结点).在此过程中,将实例保存在相应的结点上. 2. kd树建立 3. kd树搜索…
1 简介 k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类.k近邻法假设给定一个训练数据集,其中的实例类别已定.分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测.因此,k近邻法不具有显式的学习过程.k近邻法实际上利用训练数据集对一特征向量空间进行划分,并作为其分类的“模型”.k值的选择.距离度量及分类决策规则是k近邻法的三个基本要素. 2 模型 2.1 简介 k近邻法中,当训练集.距离度量(如欧氏距离).k值及分类决策规则(如多数表…
1 简介 1.1 介绍 1.2 生成步骤 CART树算法由以下两步组成:(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;(2)决策树剪枝:用验证数据集对己生成的树进行剪枝并选择最优子树,这时用损失函数址小作为剪枝的标准. 2 算法 2.1 回归树 对回归树用平方误差最小化准则,生成二叉树. 2.1.1 回归树生成 2.2 分类树 对分类树用基尼指数(Gini imlex)最小化准则,进行特征选择,生成二叉树. 2.2.1 分类树生成 2.3 剪枝 CART剪枝算法由两步组成:…
HMM的模型  图1 如上图所示,白色那一行描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,蓝紫色那一行是各个状态生成可观测的随机序列 话说,上面也是个贝叶斯网络,而贝叶斯网络中有这么一种,如下图: 代表:c确定时a和b独立.(c为实心圆代表:c已经被确定) 这时,如果把z1看成a,x1看成b,z2看成c的话,则因为第一个图的z1是不可观测的(所以z1是空心圆),也就是没确定,则x1和z2就一定有联系. 进一步,如果把z2.x2合在一起看成c的话,则x1和z2.x2就一定有联系,则x1和x…
最近阅读了李航的<统计学习方法(第二版)>,对AdaBoost算法进行了学习. 在第八章的8.1.3小节中,举了一个具体的算法计算实例.美中不足的是书上只给出了数值解,这里用代码将它实现一下,算作一个课后作业. 一.算法简述 Adaboost算法最终输出一个全局分类模型,由多个基本分类模型组成,每个分类模型有一定的权重,用于表示该基本分类模型的可信度.最终根据各基本分类模型的预测结果乘以其权重,通过表决来生成最终的预测(分类)结果. AdaBoost算法的训练流程图如下: AdaBoost在训…