HMM的概率计算问题和预测问题的java实现
HMM(hidden markov model)可以用于模式识别,李开复老师就是采用了HMM完成了语音识别。
一下的例子来自于《统计学习方法》
一个HMM由初始概率分布,状态转移概率分布,观测概率分布确定。并且基于两个假设:
1 假设任意时刻t的状态只依赖于前一个时刻的状态,与其他时刻的状态和观测序列无关
2 假设任意时刻的观测只依赖与该市可的马尔科夫的状态,与其他观测,状态无关。
基于此,HMM有三个基本问题:
1 概率计算问题,给定模型和观测序列,计算在模型下的观测序列出现的概率
2 预测问题,已知模型和观测序列,求最有可能的状态序列
3 学习问题,给出若干个观测序列,估计模型的参数,使得该模型下观测序列概率最大
由于第三个问题涉及到EM算法,而今天还没有看,所以这里只解决了两个,明天写第三个。
给出上面两个问题的实际例子
有三个盒子,每个盒子有红球白球
盒子 红球 白球
1 5 5
2 4 6
3 7 3
第一次从这三个盒子中随机取一个盒子的概率为0.2,0.4,0.4
并且如果上一次抽取的是盒子1那么下一次抽取盒子1的概率为0.5,抽取盒子2的概率为0.2,盒子3的概率为0.3,我们通过一个状态转移矩阵来描述
0.5 0.2 0.3
0.3 0.5 0.2
0.2 0.3 0.5 Aij表示从状态i转移到状态j的概率
通过以上描述,我们能得到该HMM的模型参数
状态转移矩阵:
0.5 0.2 0.3
0.3 0.5 0.2
0.2 0.3 0.5
观测概率分布:
0.5 0.5
0.4 0.6
0.7 0.3 Bij表示第i个状态下观测值为j的概率,这里就是抽到红球和白球的概率
初始概率:
0.2,0.4,0.4表示一开始到各个状态的概率
对于问题1:
现在我们抽取三次,结果为:红白红,求其出现的概率。
解决方法:
采用前向算法
就是我们从时刻1开始,先计算所有状态下观测为红的概率,接下来再求t2时刻会转移到某个状态的概率和,以此类推

具体的可以看《统计学习方法》,http://www.cnblogs.com/tornadomeet/archive/2012/03/24/2415583.html这个说的也比较详细
对于问题2:
抽三次后,结果为红白红,求被抽到最有可能的盒子的序列
解决方法:
这里采用了维特比算法,其实就是很常见的动态规划的算法,和求最短路径一样。如果说t+1时刻的状态序列概率最大,那么t时刻的状态序列也应该是最大的。
具体可以看《统计学习方法》
import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map; class Alaph{//Alaph和delta两个一样。。。一开始的时候delta思路错了,后来就不改了
double pro;//用于存放概率
int state;//存放状态值
public String toString(){
return "pro:"+pro+" state:"+state;
}
} class Delta{
public double pro;
public int pos;
public String toString(){
return "pro is "+pro+" pos is "+pos;
}
} class Utils{
public static ArrayList<ArrayList<Double>> loadMatrix(String filename) throws IOException{//读取数据
ArrayList<ArrayList<Double>> dataSet=new ArrayList<ArrayList<Double>>();
FileInputStream fis=new FileInputStream(filename);
InputStreamReader isr=new InputStreamReader(fis,"UTF-8");
BufferedReader br=new BufferedReader(isr);
String line=""; while((line=br.readLine())!=null){
ArrayList<Double> data=new ArrayList<Double>();
String[] s=line.split(" "); for(int i=0;i<s.length;i++){
data.add(Double.parseDouble(s[i]));
}
dataSet.add(data);
}
return dataSet;
} public static ArrayList<Double> loadState(String filename)throws IOException{//读取数据,这个和上面那个很像,
FileInputStream fis=new FileInputStream(filename);
InputStreamReader isr=new InputStreamReader(fis,"UTF-8");
BufferedReader br=new BufferedReader(isr);
String line="";
ArrayList<Double> data=new ArrayList<Double>();
while((line=br.readLine())!=null){ String[] s=line.split(" "); for(int i=0;i<s.length;i++){
data.add(Double.parseDouble(s[i]));
} }
return data;
} public static ArrayList<Double> getColData(ArrayList<ArrayList<Double>> A,int index){//根据index值,获取相应的列的数据,后来好像没什么用到。。。囧
ArrayList<Double> col=new ArrayList<Double>();
for(int i=0;i<A.size();i++){
col.add(A.get(i).get(index));
}
return col;
} public static void showData(ArrayList<ArrayList<Double>> data){//debug的时候用的,打印
for(ArrayList<Double> a:data){
System.out.println(a);
}
} public static void showAlaph(ArrayList<Alaph> list){
for(Alaph a:list){
System.out.println(a);
}
} public static ArrayList<Alaph> copy(ArrayList<Alaph> list){//复制
ArrayList<Alaph> temp=new ArrayList<Alaph>();
for(Alaph a:list){
Alaph b=new Alaph();
b.pro=a.pro;
b.state=a.state;
temp.add(b);
}
return temp;
} public static Delta copyDelta(Delta src){//和上面一样,没有什么用
Delta d=new Delta();
d.pro=src.pro;
d.pos=src.pos;
return d;
} public static ArrayList<Delta> copyDeltaList(Delta[] list){//复制
ArrayList<Delta> deltaList=new ArrayList<Delta>();
for(Delta delta:list){
Delta temp=copyDelta(delta);
deltaList.add(temp);
}
return deltaList;
} public static void showDeltaList(ArrayList<Delta> list){//debug
for(Delta d:list){
System.out.println(d);
}
} public static int getMaxIndex(ArrayList<Delta> list){//求list中值最大的下标
double max=-1.0;
int index=-1;
for(int i=0;i<list.size();i++){
if(list.get(i).pro>max){
max=list.get(i).pro;
index=i;
}
}
return index;
} } public class HMM {
public static ArrayList<Alaph> getInitAlaph(ArrayList<Double> initState,ArrayList<ArrayList<Double>> B,int index){//第一步的时候,用于求各个状态下的初始情况
ArrayList<Double> col=Utils.getColData(B,index);
ArrayList<Alaph> alaphSet=new ArrayList<Alaph>();
for(int i=0;i<col.size();i++){
Alaph a=new Alaph();
a.pro=col.get(i)*initState.get(i);//初始情况为初始状态*对应的观测概率矩阵的值
a.state=i;
alaphSet.add(a);
}
return alaphSet;
}
public static ArrayList<Delta> getInitDelta(ArrayList<Double> initState,ArrayList<ArrayList<Double>> B,int index){//和上面一样
ArrayList<Double> col=Utils.getColData(B,index);
ArrayList<Delta> alaphSet=new ArrayList<Delta>();
for(int i=0;i<col.size();i++){
Delta d=new Delta();
d.pro=col.get(i)*initState.get(i);
d.pos=i;
alaphSet.add(d);
}
return alaphSet;
} //用于求给定模型和观测序列下求,该模型下的观测序列出现的概率
public static double calProb(ArrayList<ArrayList<Double>> A,ArrayList<ArrayList<Double>> B,ArrayList<Double> initState,String[] observe,Map<String,Integer> map){
int index=map.get(observe[0]);
ArrayList<Alaph> alaphList=getInitAlaph(initState,B,index);//先求第一步的状态概率
for(int i=1;i<observe.length;i++){//对各个观测值进行求解
String s=observe[i];
int tag=map.get(s);
ArrayList<Alaph> temp=Utils.copy(alaphList);
for(Alaph alaph:alaphList){
int destState=alaph.state;
double pro=0;
for(Alaph a:temp){
int srcState=a.state;
pro+=a.pro*A.get(srcState).get(destState);
}
pro=pro*B.get(destState).get(tag);
alaph.pro=pro;
}
}
double result=0;
for(Alaph alaph:alaphList){
result+=alaph.pro;
}
return result;
} //用于求给定模型和观测序列下,求其最大可能性的状态序列
public static void decoding(ArrayList<ArrayList<Double>> A,ArrayList<ArrayList<Double>> B,ArrayList<Double> initState,String[] observe,Map<String,Integer> map){
int index=map.get(observe[0]); ArrayList<Delta> deltaList=getInitDelta(initState,B,index);
int length=B.size();
Delta maxDeltaList[]=new Delta[B.size()];//用于存放各个状态下的最大概率对应的delta值
ArrayList<ArrayList<Integer>> posList=new ArrayList<ArrayList<Integer>>();//用于存放各个状态下的最佳状态值 for(int i=0;i<B.size();i++){
ArrayList<Integer> a=new ArrayList<Integer>();
a.add(i);
posList.add(a);
} for(int j=1;j<3;j++){
ArrayList<Delta> maxList=new ArrayList<Delta>();
String s=observe[j];
int tag=map.get(s);
for(int i=0;i<B.size();i++){
Delta max=new Delta();
double maxPro=-1.0;
int maxPos=-1;
int maxIndex=-1;
for(int k=0;k<deltaList.size();k++){
Delta delta=deltaList.get(k);
double pro=delta.pro*A.get(delta.pos).get(i)*B.get(i).get(tag);
if(pro>maxPro){
maxPro=pro;
maxPos=i;
maxIndex=k;
}
}
max.pro=maxPro;
max.pos=maxPos;
maxDeltaList[i]=max;
posList.get(i).add(maxIndex);
} deltaList=Utils.copyDeltaList(maxDeltaList);
System.out.println(" ");
} System.out.println(posList.get(Utils.getMaxIndex(deltaList))); } /**
* @param args
* @throws IOException
*/
public static void main(String[] args) throws IOException {
String dataA="C:/Users/Administrator/Desktop/upload/HMM/A.txt";
String dataB="C:/Users/Administrator/Desktop/upload/HMM/B.txt";
String state="C:/Users/Administrator/Desktop/upload/HMM/init.txt";
ArrayList<ArrayList<Double>> A=Utils.loadMatrix(dataA);
ArrayList<ArrayList<Double>> B=Utils.loadMatrix(dataB);
ArrayList<Double> initState=Utils.loadState(state);
String[] s={"Red","White","Red"};
Map<String,Integer> map=new HashMap();
map.put("Red",0);
map.put("White",1);
double pro=calProb(A,B,initState,s,map);
// System.out.println("pro is "+pro);
decoding(A,B,initState,s,map);
} }
HMM的概率计算问题和预测问题的java实现的更多相关文章
- 隐马尔可夫模型HMM(二)概率计算问题
		摘自 1.李航的<统计学习方法> 2.http://www.cnblogs.com/pinard/p/6955871.html 一.概率计算问题 上一篇介绍了概率计算问题是给定了λ(A,B ... 
- 条件随机场(CRF) - 3 - 概率计算问题
		声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了 ... 
- nyoj  概率计算
		概率计算 时间限制:1000 ms | 内存限制:65535 KB 难度:1 描述 A和B两个人参加一场答题比赛.比赛的过程大概是A和B两个人轮流答题,A先答.一旦某人没有正确回答问题,则对手 ... 
- JAVA实现概率计算(数字不同范围按照不同几率产生随机数)
		程序中经常遇到随机送红包之类的情景,这个随机还得指定概率,比如10%的机率可以得到红包.那么java怎么实现一个简单的概率计算了,见如下例子: int randomInt = RandomUtils. ... 
- 算法笔记_155:算法提高 概率计算(Java)
		目录 1 问题描述 2 解决方案 1 问题描述 问题描述 生成n个∈[a,b]的随机整数,输出它们的和为x的概率. 输入格式 一行输入四个整数依次为n,a,b,x,用空格分隔. 输出格式 输出一行 ... 
- jquery抽奖插件+概率计算
		写了一个抽奖的jquery插件和计算概率的方法, 结合起来就是一个简单的概率抽奖, 不过实际项目中基本不会把抽奖概率的计算放在前端处理~. demo lottery.jquery.js $.fn.ex ... 
- 紫书 例题 10-10 UVa 10491(概率计算)
		公式很好推,表示被高中生物遗传概率计算虐过的人 这个公式简直不需要动脑 #include<cstdio> using namespace std; int main() { double ... 
- Java实现 蓝桥杯 算法提高 概率计算
		算法提高 概率计算 时间限制:1.0s 内存限制:256.0MB 问题描述 生成n个∈[a,b]的随机整数,输出它们的和为x的概率. 输入格式 一行输入四个整数依次为n,a,b,x,用空格分隔. 输出 ... 
- ROC曲线是通过样本点分类概率画出的 例如某一个sample预测为1概率为0.6 预测为0概率0.4这样画出来,此外如果曲线不是特别平滑的话,那么很可能存在过拟合的情况
		ROC和AUC介绍以及如何计算AUC from:http://alexkong.net/2013/06/introduction-to-auc-and-roc/ ROC(Receiver Operat ... 
随机推荐
- OpenGL ES着色器语言之静态使用(static use)和预处理
			OpenGL ES着色器语言之静态使用(static use) 在OpenGL ES中有一个术语叫静态使用(static use),什么叫静态使用呢? 在写代码中,对于一个变量可能具有以下三种情况: ... 
- bios自检时间长,显示0075错误
			一amibios主板,只有一IDE接口,接一硬盘一光驱,每次启动时,在bios自检界面,在检测完usb设备后,都要等个那么一两分钟,这个时候,可以在屏幕的右下角看到有数字:0075 ,这就是错误代码. ... 
- oracle-查询执行速度慢的sql
			Oracle 查询每天执行慢的SQL 2014-12-11 18:00:04 分类: Oracle 链接:http://blog.itpub.net/28602568/viewspace-136484 ... 
- Power oj2470/DFS
			题目链接 2469: C 小Y的难题(1) Time Limit: 1000 MS Memory Limit: 65536 KB Total Submit: 9 Accepted: 7 Page Vi ... 
- F(k)<(维护+枚举)\(找规律+递推+枚举)>
			题意 小明有一个不降序列(f(1),f(2),f(3),--),f(k)代表在这个序列中大小是k的有f(k)个.我们规定f(n)的前12项如下图. n 1 2 3 4 5 6 7 8 9 10 11 ... 
- CodeForces 429 B B. Working out
			Description Summer is coming! It's time for Iahub and Iahubina to work out, as they both want to loo ... 
- xdebug 安装
			如果是这样的话,请参考 http://www.mengyunzhi.com/share/php/107-xdebug.html 进行xdebug的安装. 
- angular实现select的ng-options
			html <div ng-controller="ngSelect"> <select ng-model="vm.selectVal" ng- ... 
- CF 365 div2 D
			http://codeforces.com/contest/703/problem/D 题目大意:给你一个长度为n数组,有q个询问,每次询问一个区间[l,r],这个区间的val就是所有数值为偶数个的数 ... 
- Mercurial hg web server的配置
			在windows下安装tortoisehg-1.0.3-hg-1.5.3-x64.exe的版本控制工具后,克隆建立中心库后,启动web server,其他分库可以连接中心库进行pull但无法push. ... 
