实际项目我是这样做的:

def mining_ue_procedures_behavior(seq, lengths, imsi_list):
print("seq 3:", seq[:3], "lengths 3:", lengths[:3])
# model.fit(seq, lengths)
fitter = LabelEncoder().fit(seq) import sys
n_components=[5, 10, 20, 30][int(sys.argv[1])]
n_iter=[10, 30, 50, 100][int(sys.argv[2])] model_file = 'hmm_model_{}_{}.pkl'.format(n_components, n_iter)
if os.path.exists(model_file):
input_file = open(model_file, 'rb')
model = pickle.load(input_file)
input_file.close()
else:
model = hmm.MultinomialHMM(n_components=n_components, n_iter=n_iter)
seq2 = fitter.transform(seq)
model.fit(np.array([seq2]).T, lengths)
output_file = open(model_file, 'wb')
pickle.dump(model, output_file)
output_file.close()
print("model.startprob_:", model.startprob_)
print("model.transmat_:", model.transmat_)
print("model.emissionprob_:", model.emissionprob_)
## [[ 1.11111111e-01 2.22222222e-01 6.66666667e-01]
## [ 5.55555556e-01 4.44444444e-01 6.27814351e-28]]
start = 0
ans = []
for i,l in enumerate(lengths):
s = seq[start: start+l]
score = model.score(np.array([[d] for d in fitter.transform(s)]))
ans.append([score, imsi_list[i], s])
# print("score:", model.score(np.array([[d] for d in fitter.transform(s)])), s)
start += l
ans.sort(key=lambda x: x[0])
score_index = 0
malicious_ue = []
for i,item in enumerate(ans):
if item[score_index] < Config.HMMBaseScore:
malicious_ue.append(item)
print(item)
# print(ans)

  

输入数据参考了下面的优雅做法:

# predict a sequence of hidden states based on visible states
seq = []
lengths = []
for _ in range(100):
length = random.randint(5, 10)
lengths.append(length)
for _ in range(length):
r = random.random()
if r < .2:
seq.append(0)
elif r < .6:
seq.append(1)
else:
seq.append(2)
seq = np.array([seq]).T
model = model.fit(seq, lengths)

此外,HMM模型的持续增量训练:

# 解决问题3,学习问题,仅给出X,估计模型参数,鲍姆-韦尔奇算法,其实就是基于EM算法的求解
# 解决这个问题需要X的有一定的数据量,然后通过model.fit(X, lengths=None)来进行训练然后自己生成一个模型
# 并不需要设置model.startprob_,model.transmat_,model.emissionprob_
# 例如: import numpy as np
from hmmlearn import hmm states = ["Rainy", "Sunny"]##隐藏状态
n_states = len(states)##隐藏状态长度 observations = ["walk", "shop", "clean"]##可观察的状态
n_observations = len(observations)##可观察序列的长度 model = hmm.MultinomialHMM(n_components=n_states, n_iter=1000, tol=0.01) X = np.array([[2, 0, 1, 1, 2, 0],[0, 0, 1, 1, 2, 0],[2, 1, 2, 1, 2, 0]])
model.fit(X)
print model.startprob_
print model.transmat_
print model.emissionprob_
# [[ 1.11111111e-01 2.22222222e-01 6.66666667e-01]
# [ 5.55555556e-01 4.44444444e-01 6.27814351e-28]]
print model.score(X)
model.fit(X)
print model.startprob_
print model.transmat_
print model.emissionprob_
和第一次fit(X)得到的行顺序不一样
# [[ 5.55555556e-01 4.44444444e-01 9.29759770e-28]
# [ 1.11111111e-01 2.22222222e-01 6.66666667e-01]]
print model.score(X)
model.fit(X)
print model.startprob_
print model.transmat_
print model.emissionprob_
print model.score(X)
# 可以进行多次fit,然后拿评分最高的模型,就可以预测了
print model.predict(bob_Actions, lengths=None)
# 预测最可能的隐藏状态
# 例如:
# [0 1 0 0 0 1]
print model.predict_proba(bob_Actions, lengths=None)# 预测各个隐藏状态的概率
# 例如:
# [[ 0.82770645 0.17229355]
# [ 0.27361913 0.72638087]
# [ 0.58700959 0.41299041]
# [ 0.69861348 0.30138652]
# [ 0.81799813 0.18200187]
# [ 0.24723966 0.75276034]]
# 在生成的模型中,可以随机生成随机生成一个模型的Z和X
X,Z = model.sample(n_samples=5, random_state=None)
print "Bob Actions:", ", ".join(map(lambda x: observations[x], X))
print "weathers:", ", ".join(map(lambda x: states[x], Z)) # 保存模型
import pickle
output = open('D:\\xxx\\data1111.pkl', 'wb')
s = pickle.dump(model, output)
output.close()
# 调用模型
input = open('D:\\xxx\\data.pkl', 'rb')
model = pickle.load(model)
input.close()
model.predict(X)

  

HMM 模型输入数据处理的优雅做法 来自实际项目的更多相关文章

  1. 应用HTK搭建语音拨号系统3:创建绑定状态的三音素HMM模型

    选自:http://maotong.blog.hexun.com/6261873_d.html 苏统华 哈尔滨工业大学人工智能研究室 2006年10月30日 声明:版权所有,转载请注明作者和来源 该系 ...

  2. HMM模型

    通过前几时断续的学习,发现自己对HMM模型的了解还只停留在皮毛,导致在学习CRF模型并将其与最大熵模型.HMM.MEMM做比较时感觉很吃力,所以又花了两天时间使劲看了遍HMM,发现了解得确实深刻了很多 ...

  3. 隐马尔科夫模型HMM(一)HMM模型

    隐马尔科夫模型HMM(一)HMM模型基础 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比 ...

  4. 时序分析:HMM模型(状态空间)

    关于HMM模型:时序分析:隐马尔科夫模型 HMM用于手势识别: 训练时每一种手势对应一个HMM-Model,识别率取最大的一个HMM即可.  类似于一个封装的完成多类识别器功能单层网络. 优点: 尤其 ...

  5. tensorflow学习笔记——多线程输入数据处理框架

    之前我们学习使用TensorFlow对图像数据进行预处理的方法.虽然使用这些图像数据预处理的方法可以减少无关因素对图像识别模型效果的影响,但这些复杂的预处理过程也会减慢整个训练过程.为了避免图像预处理 ...

  6. 应用HTK搭建语音拨号系统2:创建单音素HMM模型

    选自:http://maotong.blog.hexun.com/6204849_d.html 苏统华 哈尔滨工业大学人工智能研究室 2006年10月30日 声明:版权所有,转载请注明作者和来源 该系 ...

  7. HMM模型学习笔记(前向算法实例)

    HMM算法想必大家已经听说了好多次了,完全看公式一头雾水.但是HMM的基本理论其实很简单.因为HMM是马尔科夫链中的一种,只是它的状态不能直接被观察到,但是可以通过观察向量间接的反映出来,即每一个观察 ...

  8. 数学之美——HMM模型(二)解码和Forward算法

    上一篇讨论了HMM的基本概念和一些性质,HMM在现实中还是比较常见的,因此也带来一了一系列的HMM应用问题.HMM应用主要面向三个方面:预测.解码和学习.这篇主要讨论预测. 简单来说,预测就是给定HM ...

  9. 数学之美——HMM模型(一)介绍

    一直想写点关于数学方面的blog,这对于数据挖掘分析,NLP处理等都有着比较重要的作用,之前在CSDN上想写点HMM方面的文章,一直没写成,最近几天终于抽点时间完成了HMM的文章,加以整理,遂有这个系 ...

随机推荐

  1. 06点睛Spring MVC 4.1-文件上传

    6.1 文件上传 在控制器参数使用@RequestParam("file") MultipartFile file接受单个文件上传; 在控制器参数使用@RequestParam(& ...

  2. mongodb4.0 安装

    下载: wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.9.tgz 解压缩 tar -zxvf mongodb-linux ...

  3. 预训练中Word2vec,ELMO,GPT与BERT对比

    预训练 先在某个任务(训练集A或者B)进行预先训练,即先在这个任务(训练集A或者B)学习网络参数,然后存起来以备后用.当我们在面临第三个任务时,网络可以采取相同的结构,在较浅的几层,网络参数可以直接加 ...

  4. TypeScript(二)使用Webpack搭建环境

    今天继续来更新,本篇文章我们讲环境搭建,主要分享一些环境搭建的学习资源及安装步骤,解决一些安装时可能会出现的问题.下面就让我们一起进入学习第一步,搭建TypeScript环境:一. 环境搭建1.1. ...

  5. K8S从入门到放弃系列-(13)Kubernetes集群mertics-server部署

    集群部署好后,如果我们想知道集群中每个节点及节点上的pod资源使用情况,命令行下可以直接使用kubectl top node/pod来查看资源使用情况,默认此命令不能正常使用,需要我们部署对应api资 ...

  6. 多线程(10) — Future模式

    Future模式是多线程开发中常用常见的一种设计模式,它的核心思想是异步调用.在调用一个函数方法时候,如果函数执行很慢,我们就要进行等待,但这时我们可能不着急要结果,因此我们可以让被调者立即返回,让它 ...

  7. Linux01学习第一天 man

    Linux标准的读音:哩呐科斯 Linux是一种类UNIX的系统,具有以下特点: 1.免费开源 2.模块化程度高 3.广泛的硬件支持 4.安全稳定 5.多用户,多任务(所以常应用于系统运维,以及合作开 ...

  8. golang之结构体使用注意事项和细节

    1. 结构体的所有字段在内在中是连续的 2. 结构体是用户单独定义的类型,和其它类型进行转换时需要有完全相同的字段(名字.个数和类型) 3. 结构体进行type重新定义(相当于取别名),Golang认 ...

  9. WUSTOJ 1307: 校门外的树(Java)

    题目链接:

  10. 数据结构-单链表-类定义2-C++

    上一次的C++链表实现两个单链表的连接不太理想,此次听了一些视频课,自己补了个尾插法,很好的实现了两个链表的连接,当然了,我也是刚接触,可能是C++的一些语法还不太清楚,不过硬是花了一些时间尽量在数据 ...