EM 算法实例

#coding:utf-8

import math

import copy

import numpy as np

import matplotlib.pyplot as plt

isdebug = True

#指定k个高斯分布參数，这里指定k=2。

#注意2个高斯分布具有同样方差Sigma。均值分别为Mu1,Mu2。

#共1000个数据

#生成训练样本。输入6,40,20,2

#两类样本方差为6。

#一类均值为20。一类为40

#随机生成1000个数

def ini_data(Sigma,Mu1,Mu2,k,N):

  #保存生成的随机样本

  global X 

  #求类别的均值

  global Mu

  #保存样本属于某类的概率

  global Expectations 

  #1*N的矩阵。生成N个样本

  X = np.zeros((1,N))

  #随意给定两个初始值，任猜两类均值

  #赋值一次就可以，最后要输出的量

  Mu = np.random.random(2) #0-1之间

  print Mu

  #给定1000*2的矩阵。保存样本属于某类的概率

  Expectations = np.zeros((N,k)) 

  #生成N个样本数据

  for i in xrange(0,N):

    #在大于0.5在第1个分布，小于0.5在第2个分布

    if np.random.random(1) > 0.5:

      #均值40加上方差倍数。样本数据满足N(40,Sigma)正态分布

      X[0,i] = np.random.normal()*Sigma + Mu1 #

    else:

      #均值40加上方差倍数，样本数据满足N(20,Sigma)正态分布

      X[0,i] = np.random.normal()*Sigma + Mu2 

  if isdebug:

    print "***********"

    print u"初始观測数据X："

    print X

#E步 计算每一个样本属于男女各自的概率

#输入：方差Sigma。类别k。样本数N

def e_step(Sigma,k,N):

  #样本属于某类概率

  global Expectations

  #两类均值

  global Mu

  #样本

  global X

  #遍历全部样本点，计算属于每一个类别的概率

  for i in xrange(0,N):

    #分母，用于归一化

    Denom = 0

    #遍历男女两类，计算各自归一化分母

    for j in xrange(0,k):

      #计算分母

      Denom += math.exp((-1/(2*(float(Sigma**2))))*(float(X[0,i]-Mu[j]))**2)

    #遍历男女两类，计算各自分子部分

    for j in xrange(0,k):

      #分子

      Numer = math.exp((-1/(2*(float(Sigma**2))))*(float(X[0,i]-Mu[j]))**2)

      #每一个样本属于该类别的概率

      Expectations[i,j] = Numer/Denom

  if isdebug:

    print "***********"

    print u"隐藏变量E（Z）："

    print len(Expectations)

    #数据总个数

    print Expectations.size

    #矩阵数据

    print Expectations.shape

    #打印出隐藏变量的值

    print Expectations

#M步 期望最大化

def m_step(k,N):

  #样本属于某类概率P(k|xi)

  global Expectations

  #样本

  global X

  #计算两类的均值

  #遍历两类

  for j in xrange(0,k):

    Numer = 0

    Denom = 0

    #当前类别下，遍历全部样本

    #计算该类别下的均值和方差

    for i in xrange(0,N):

      #该类别样本分布P(k|xi)xi

      Numer += Expectations[i,j]*X[0,i]

      #该类别类样本总数Nk，Nk等于P(k|xi)求和

      Denom +=Expectations[i,j]

    #计算每一个类别各自均值uk

    Mu[j] = Numer / Denom

#算法迭代iter_num次。或达到精度Epsilon停止迭代

#迭代次数1000次， 误差达到0.0001终止

#输入：两类同样方差Sigma。一类均值Mu1，一类均值Mu2

#类别数k。样本数N，迭代次数iter_num。可接受精度Epsilon

def run(Sigma,Mu1,Mu2,k,N,iter_num,Epsilon):

  #生成训练样本

  ini_data(Sigma,Mu1,Mu2,k,N)

  print u"初始<u1,u2>:", Mu

  #迭代1000次

  for i in range(iter_num):

    #保存上次两类均值

    Old_Mu = copy.deepcopy(Mu)

    #E步

    e_step(Sigma,k,N)

    #M步

    m_step(k,N)

    #输出当前迭代次数及当前预计的值

    print i,Mu

    #推断误差

    if sum(abs(Mu-Old_Mu)) < Epsilon:

      break

if __name__ == '__main__':

  #sigma,mu1,mu2,模型数，样本总数，迭代次数，迭代终止收敛精度

   run(6,40,20,2,1000,1000,0.0001)

   plt.hist(X[0,:],100) #柱状图的宽度

   plt.show()

EM 算法实例的更多相关文章

机器学习中的EM算法具体解释及R语言实例（1）
最大期望算法(EM) K均值算法很easy(可參见之前公布的博文),相信读者都能够轻松地理解它. 但以下将要介绍的EM算法就要困难很多了.它与极大似然预计密切相关. 1 算法原理最好还是从一个样例開 ...
opencv3中的机器学习算法之：EM算法
不同于其它的机器学习模型,EM算法是一种非监督的学习算法,它的输入数据事先不需要进行标注.相反,该算法从给定的样本集中,能计算出高斯混和参数的最大似然估计.也能得到每个样本对应的标注值,类似于kmea ...
Expectation maximization - EM算法学习总结
原创博客,转载请注明出处 Leavingseason http://www.cnblogs.com/sylvanas2012/p/5053798.html EM框架是一种求解最大似然概率估计的方法.往 ...
简单易学的机器学习算法——EM算法
简单易学的机器学习算法——EM算法一.机器学习中的参数估计问题在前面的博文中,如“简单易学的机器学习算法——Logistic回归”中,采用了极大似然函数对其模型中的参数进行估计,简单来讲即对于一系 ...
EM算法--第一篇
在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariable).最大期望 ...
Python实现机器学习算法：EM算法
''' 数据集:伪造数据集(两个高斯分布混合) 数据集长度:1000 ------------------------------ 运行结果: ---------------------------- ...
PLSA及EM算法
前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法.接着我们分析如何运用EM算法估计一个简单的mixture ...
Machine Learning系列--EM算法理解与推导
EM算法,全称Expectation Maximization Algorithm,译作最大期望化算法或期望最大算法,是机器学习十大算法之一,吴军博士在<数学之美>书中称其为“上帝视角”算 ...
EM算法--原理
EM算法即期望最大化(Expection Maximization)算法,是一种最优化算法,在机器学习领域用来求解含有隐变量的模型的最大似然问题.最大似然是一种求解模型参数的方法,顾名思义,在给定一组 ...

随机推荐

OpenCV2马拉松第10圈——直方图反向投影(back project)
收入囊中灰度图像的反向投影彩色图像的反向投影利用反向投影做object detect 葵花宝典什么是反向投影?事实上没有那么高大上! 在上一篇博文学到,图像能够获得自己的灰度直方图. 反向投影 ...
任务驱动，Winform VS WEB对比式学习.NET开发系列第一篇------身份证解析（不断更新的WEB版本及Winform版本源码）
一本系列培训随笔适用人群 1. 软件开发初学者 2. 有志于转向Web开发的Winform程序员 3. 想了解桌面应用开发的Web程序员二高效学习编程的办法 1 任务驱动方式学习软件开发大部分 ...
dubbo知识点理解2
作者:网易云链接:https://www.zhihu.com/question/45413135/answer/226794957来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注 ...
.NET：负载平衡的主意事项
允许局域网发现和共享. 设置固定IP. 网站的IP设置为“全部未分配”. 注意:如果停止IIS的话,不会对负载平衡有影响,负载还是会分配停止了的IIS所在在的电脑,只有停止服务器了,负载不会再分配给停 ...
https://github.com/wytings
博客中写了很多比较杂乱的东西,有时候可能一时看不出效果,毕竟代码问题确实是 “Talk is cheap. Show me the code” 所以,就开了一个github,把一些日常开发和使用的工具 ...
不要用cudnn7.2，用7.3可以兼容
tensorflow1.11.0 非常的过分了[捂脸]官网上写的cuda 9.0,cudnn 7.2.然而Nvidia官网上根本没有这两个的对应...之前一直都依赖anaconda的一键安装,被惯坏了 ...
_vsnprintf在可变参数打印中的用法
_vsnprintf,C语言库函数之一,属于可变参数.用于向字符串中打印数据.数据格式用户自定义. 函数简介编辑头文件: #include <stdarg.h> 函数声明: int _ ...
会话追踪(session tracking)
HTTP是一种无连接的协议,如果一个客户端只是单纯地请求一个文件(HTML或GIF),服务器端可以响应给客户端,并不需要知道一连串的请求是否来自于相同的客户端,而且也不需要担心客户端是否处在连接状态. ...
go语言基础之字符串类型和字符与字符串类型的区别
1.字符串类型示例1: package main //必须有一个main包 import "fmt" func main() { var str1 string str1 = & ...
线程本地存储TLS(Thread Local Storage)的原理和实现——分类和原理
本文为线程本地存储TLS系列之分类和原理. 一.TLS简述和分类我们知道在一个进程中,所有线程是共享同一个地址空间的.所以,如果一个变量是全局的或者是静态的,那么所有线程访问的是同一份,如果某一个线 ...

EM 算法 实例

EM 算法 实例的更多相关文章

随机推荐

热门专题

EM 算法实例

EM 算法实例的更多相关文章