一、机器学习中的参数估计问题

在前面的博文中，如“简单易学的机器学习算法——Logistic回归”中，采用了极大似然函数对其模型中的参数进行估计，简单来讲即对于一系列样本 $\left \{ X_i,y_i \right \},i=1,\cdots ,n$ ，Logistic回归问题属于监督型学习问题，样本中含有训练的特征 $X_i$ 以及标签 $y_i$ ，在Logistic回归的参数求解中，通过构造样本属于类别 $1$ 和类别 $0$ 的概率：

$P\left ( y=1\mid x;\theta \right )=\sigma \left ( \theta ^TX \right )$

$P\left ( y=0\mid x;\theta \right )=1-\sigma \left ( \theta ^TX \right )$

这样便能得到Logistic回归的属于不同类别的概率函数：

$P\left ( y\mid x;\theta \right )=\left ( \sigma \left ( \theta ^TX \right ) \right )^y\left (1-\sigma \left ( \theta ^TX \right ) \right )^\left ( 1-y \right )$

此时，使用极大似然估计便能够估计出模型中的参数。但是，如果此时的标签 $y$ 是未知的，称为隐变量，如无监督的学习问题，典型的如K-Means聚类算法，此时不能直接通过极大似然估计估计出模型中的参数。

二、EM算法简介

在上述存在隐变量的问题中，不能直接通过极大似然估计求出模型中的参数，EM算法是一种解决存在隐含变量优化问题的有效方法。EM算法是期望极大(Expectation Maximization)算法的简称，EM算法是一种迭代型的算法，在每一次的迭代过程中，主要分为两步：即求期望(Expectation)步骤和最大化(Maximization)步骤。

三、EM算法推导的准备

1、凸函数

设 $f$ 是定义在实数域上的函数，如果对于任意的实数 $x$ ，都有

${f}''\geqslant 0$

那么 $f$ 是凸函数。若 $x$ 不是单个实数，而是由实数组成的向量，此时，如果函数 $f$ 的Hesse矩阵 $H$ 是半正定的，即

${H}''\geqslant 0$

那么 $f$ 是凸函数。特别地，如果 ${f}''> 0$ 或者 ${H}''> 0$ ，那么称 $f$ 为严格凸函数。

2、Jensen不等式

如果函数 $f$ 是凸函数， $x$ 是随机变量，那么

$E\left [ f\left ( x \right ) \right ]\geqslant f\left ( Ex \right )$

特别地，如果函数 $f$ 是严格凸函数，那么 $E\left [ f\left ( x \right ) \right ]= f\left ( Ex \right )$ 当且仅当

$p\left ( x=Ex \right )=1$

即随机变量 $x$ 是常量。

(图片来自参考文章1)

注：若函数 $f$ 是凹函数，上述的符号相反。

3、数学期望

3.1随机变量的期望

设离散型随机变量 $X$ 的概率分布为：

$p_i=p\left \{ X=x_i \right \}$

其中， $i=1,2,\cdots$ ，如果 $\sum_{i}x_ip_i$ 绝对收敛，则称 $\sum_{i}x_ip_i$ 为 $X$ 的数学期望，记为 $E\left ( X \right )$ ，即：

$E\left ( X \right )=\sum_{i}x_ip_i$

若连续型随机变量 $X$ 的概率密度函数为 $f\left ( x \right )$ ，则数学期望为：

$E\left ( X \right )=\int_{-\infty }^{+\infty }xf\left ( x \right )dx$

3.2随机变量函数的数学期望

设 $Y$ 是随机变量 $X$ 的函数，即 $Y=g\left ( X \right )$ ，若 $X$ 是离散型随机变量，概率分布为：

$p_i=p\left \{ X=x_i \right \}$

则：

$E\left ( Y \right )=E\left ( g\left ( X \right ) \right )=\sum_{i}g\left ( x_i \right )p_i$

若 $X$ 是连续型随机变量，概率密度函数为 $f\left ( x \right )$ ，则

$E\left ( Y \right )=E\left ( g\left ( X \right ) \right )=\int_{-\infty }^{+\infty }g\left ( x \right )f\left ( x \right )dx$

四、EM算法的求解过程

假设 $Y$ 表示观测变量， $Z$ 表示潜变量，则此时 $\left ( Y,Z \right )$ 即为完全数据， $Y$ 的似然函数为 $P\left ( Y\mid \theta \right )$ ，其中， $\theta$ 为需要估计的参数，那么对于完全数据， $\left ( Y,Z \right )$ 的似然函数为 $P\left ( Y,Z\mid \theta \right )$ 。

构建好似然函数，对于给定的观测数据，为了估计参数 $\theta$ ，我们可以使用极大似然估计的方法对其进行估计。因为变量 $Z$ 是未知的，我们只能对 $Y$ 的似然函数为 $P\left ( Y\mid \theta \right )$ 进行极大似然估计，即需要极大化：

$\begin{align*} l\left ( \theta \right )&=log\; L\left ( \theta \right )=log\; P\left ( Y\mid \theta \right ) \\ &= log\; \sum_{Z}P\left ( Y,Z\mid \theta \right ) \end{align*}$

上述式子中无法直接对 $l\left ( \theta \right )$ 求极大值，因为在函数中存在隐变量 $Z$ ，即未知变量。若此时，我们能够确定隐变量 $Z$ 的值，便能够求出 $l\left ( \theta \right )$ 的极大值，可以用过不断的修改隐变量 $Z$ 的值，得到新的 $l\left ( \theta \right )$ 的极大值。这便是EM算法的思路。通过迭代的方式求出参数 $\theta$ 。

首先我们需要对参数 $\theta$ 赋初值，进行迭代运算，假设第 $i$ 次迭代后参数 $\theta$ 的值为 $\theta ^\left ( i \right )$ ，此时的log似然函数为 $l\left ( \theta ^\left ( i \right )\right )$ ，即：

$\begin{align*} l\left ( \theta ^{\left ( i \right )} \right ) &=log\; \sum_{Z}P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right ) \\ &= log\; \sum_{Z}Q_i\left ( Z \right )\cdot \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )}\\ &\geqslant \sum_{Z}Q_i\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )} \end{align*}$

在上式中，第二行到第三行使用到了Jensen不等式，由于log函数是凹函数，由Jensen不等式得到：

$E\left [ f\left ( x \right ) \right ]\leqslant f\left ( Ex \right )$

而

$\sum_{Z}Q_i\left ( Z \right )\cdot \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )}$

表示的是 $\frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )}$ 的期望，其中， $Q_i\left ( Z \right )$ 表示的是隐变量 $Z$ 满足的某种分布。这样，上式 $l\left ( \theta ^\left ( i \right )\right )$ 的值取决于 $Q_i\left ( Z \right )$ 和 $P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )$ 的概率。在迭代的过程中，调整这两个概率，使得下界不断的上升，这样就能求得 $l\left ( \theta \right )$ 的极大值。注意，当等式成立时，说明此时已经等价于 $l\left ( \theta \right )$ 。由Jensen不等式可知，等式成立的条件是随机变量是常数，即：

$\frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{Q_i\left ( Z \right )}=C$

已知：

$\sum_{Z}Q_i\left ( Z \right )=1$

所以：

$\sum_{Z}P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )=C$

则：

$\begin{align*} Q_i\left ( Z \right )&= \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{\sum_{Z}P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}\\ &= \frac{P\left ( Y,Z\mid \theta ^{\left ( i \right )} \right )}{P\left ( Y\mid \theta ^{\left ( i \right )} \right )}\\ &=P\left ( Z\mid Y,\theta ^{\left ( i \right )} \right ) \end{align*}$

至此，我们得出了隐变量 $Z$ 满足的分布的形式 $Q_i\left ( Z \right )$ 。这就是EM算法中的E步。在确定了 $Q_i\left ( Z \right )$ 后，调整参数 $\theta$ 使得 $l\left ( \theta \right )$ 取得极大，这便是M步。EM算法的步骤为：

初始化参数 $\theta ^\left ( 0 \right )$ ，开始迭代；
E步：假设 $\theta ^\left ( i \right )$ 为第 $i$ 次迭代参数 $\theta$ 的估计值，则在第 $i+1$ 次迭代中，计算 $Q_i\left ( Z \right )$ ： $Q_i\left ( Z \right )=P\left ( Z\mid Y,\theta ^\left ( i \right ) \right )$
M步：求使 $l\left ( \theta ^\left ( i \right )\right )$ 极大化的 $\theta$ ，确定第 $i+1$ 次的参数的估计值 $\theta ^\left ( i+1 \right )$ ： $\theta ^{\left ( i+1 \right )}=\underset{\theta }{arg\: max}\sum_{Z}Q_i\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^\left ( i \right ) \right )}{Q_i\left ( Z \right )}$

五、EM算法的收敛性保证

迭代的过程能否保证最后找到的就是最大的似然函数值呢？即需要证明在整个迭代的过程中，极大似然估计是单调增加的。假定 $\theta ^\left ( t \right )$ 和 $\theta ^\left ( t+1 \right )$ 是EM算法的第 $t$ 次和第 $t+1$ 次迭代后的结果，选定 $\theta ^\left ( t \right )$ ，进行迭代：

E步： $Q_{t}\left ( Z \right )=P\left ( Z\mid Y,\theta ^\left ( i \right ) \right )$
M步： $l\left ( \theta ^{\left ( t \right )} \right )=\sum_{Z}Q_{t}\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( t \right )} \right )}{Q_{t}\left ( Z \right )}$

固定 $Q_t\left ( Z \right )$ ，将 $\theta ^\left ( t \right )$ 看成变量：

$\begin{align*} l\left ( \theta ^{\left ( t+1 \right )} \right ) &= \sum_{Z}Q_{t+1}\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( t+1 \right )} \right )}{Q_{t+1}\left ( Z \right )}\\ &\geqslant \sum_{Z}Q_{t}\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( t+1 \right )} \right )}{Q_{t}\left ( Z \right )} \\ &\geqslant \sum_{Z}Q_{t}\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^{\left ( t \right )} \right )}{Q_{t}\left ( Z \right )} \\ &=l\left ( \theta ^{\left ( t\right )} \right ) \end{align*}$

上式中，第一个大于等于是因为：

$\theta ^{\left ( i+1 \right )}=\underset{\theta }{arg\: max}\sum_{Z}Q_i\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^\left ( i \right ) \right )}{Q_i\left ( Z \right )}$

六、利用EM算法参数求解实例

假设有有一批数据 $\left ( x_1,x_2,\cdots ,x_n \right )$ 分别是由两个正态分布：

$X_1\sim N\left ( \mu _1,\sigma ^2_1 \right )$

$X_2\sim N\left ( \mu _2,\sigma ^2_2 \right )$

产生，其中， $\mu _1$ 和 $\mu _2$ 未知， $\sigma ^2_1=\sigma ^2_2$ 。但是不知道具体的 $x_i$ 是第产生，即可以使用 $z_{i,1}$ 和 $z_{i,2}$ 表示。这是一个典型的涉及到隐藏变量的例子，隐藏变量为 $z_{i,1}$ 和 $z_{i,2}$ 。可以使用EM算法对参数进行估计。

首先是初始化 $\mu _1$ 和 $\mu _2$ ；
E步： $Q_{t}\left ( Z \right )=P\left ( Z\mid Y,\theta ^\left ( i \right ) \right )$ ，即求数据 $x_i$ 是由第 $j$ 个分布产生的概率： $P\left ( z_{i,j}\mid x_i,\mu_j \right )=\frac{e^{-\frac{1}{2\sigma ^2}\left ( x_i-\mu _j \right )^2}}{\sum_{n=1}^{2}e^{-\frac{1}{2\sigma ^2}\left ( x_i-\mu _n\right )^2}}$
M步： $\theta ^{\left ( i+1 \right )}=\underset{\theta }{arg\: max}\sum_{Z}Q_i\left ( Z \right )\cdot log\; \frac{P\left ( Y,Z\mid \theta ^\left ( i \right ) \right )}{Q_i\left ( Z \right )}$ ，即计算最大的期望值。然而我们要求的参数是均值，可以通过如下的方式估计： $\mu _j=\frac{\sum_{i=1}^{m}P\left ( z_{i,j}\mid x_i,\mu _j \right )x_i}{\sum_{i=1}^{m}P\left ( z_{i,j}\mid x_i,\mu _j \right )}$

Python代码

#coding:UTF-8
'''''
Created on 2015年6月7日
@author: zhaozhiyong
'''
from __future__ import division
from numpy import *
import math as mt
#首先生成一些用于测试的样本
#指定两个高斯分布的参数，这两个高斯分布的方差相同
sigma = 6
miu_1 = 40
miu_2 = 20
#随机均匀选择两个高斯分布，用于生成样本值
N = 1000
X = zeros((1, N))
for i in xrange(N):
if random.random() > 0.5:#使用的是numpy模块中的random
X[0, i] = random.randn() * sigma + miu_1
else:
X[0, i] = random.randn() * sigma + miu_2
#上述步骤已经生成样本
#对生成的样本，使用EM算法计算其均值miu
#取miu的初始值
k = 2
miu = random.random((1, k))
#miu = mat([40.0, 20.0])
Expectations = zeros((N, k))
for step in xrange(1000):#设置迭代次数
#步骤1，计算期望
for i in xrange(N):
#计算分母
denominator = 0
for j in xrange(k):
denominator = denominator + mt.exp(-1 / (2 * sigma ** 2) * (X[0, i] - miu[0, j]) ** 2)
#计算分子
for j in xrange(k):
numerator = mt.exp(-1 / (2 * sigma ** 2) * (X[0, i] - miu[0, j]) ** 2)
Expectations[i, j] = numerator / denominator
#步骤2，求期望的最大
#oldMiu = miu
oldMiu = zeros((1, k))
for j in xrange(k):
oldMiu[0, j] = miu[0, j]
numerator = 0
denominator = 0
for i in xrange(N):
numerator = numerator + Expectations[i, j] * X[0, i]
denominator = denominator + Expectations[i, j]
miu[0, j] = numerator / denominator
#判断是否满足要求
epsilon = 0.0001
if sum(abs(miu - oldMiu)) < epsilon:
break
print step
print miu
print miu

最终结果

[[ 40.49487592 19.96497512]]

参考文章：

1、(EM算法)The EM Algorithm (http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html)

2、数学期望(http://wenku.baidu.com/view/915a9c1ec5da50e2524d7f08.html?re=view)

简单易学的机器学习算法——EM算法的更多相关文章

简单易学的机器学习算法—SVD奇异值分解
简单易学的机器学习算法-SVD奇异值分解一.SVD奇异值分解的定义假设M是一个的矩阵,如果存在一个分解: 其中的酉矩阵,的半正定对角矩阵,的共轭转置矩阵,且为的酉矩阵.这样的分解称为M的奇 ...
简单易学的机器学习算法—基于密度的聚类算法DBSCAN
简单易学的机器学习算法-基于密度的聚类算法DBSCAN 一.基于密度的聚类算法的概述我想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别. ...
斯坦福大学机器学习，EM算法求解高斯混合模型
斯坦福大学机器学习,EM算法求解高斯混合模型.一种高斯混合模型算法的改进方法---将聚类算法与传统高斯混合模型结合起来的建模方法, 并同时提出的运用距离加权的矢量量化方法获取初始值,并采用衡量相似度的 ...
机器学习五 EM 算法
目录引言经典示例 EM算法 GMM 推导参考文献: 引言 Expectation maximization (EM) 算法是一种非常神奇而强大的算法. EM算法于 1977年由Dempster ...
关于机器学习－EM算法新解
我希望自己能通俗地把它理解或者说明白,但是,EM这个问题感觉真的不太好用通俗的语言去说明白,因为它很简单,又很复杂.简单在于它的思想,简单在于其仅包含了两个步骤就能完成强大的功能,复杂在于它的数学推理 ...
机器学习之EM算法（五）
摘要 EM算法全称为Expectation Maximization Algorithm,既最大期望算法.它是一种迭代的算法,用于含有隐变量的概率参数模型的最大似然估计和极大后验概率估计.EM算法经常 ...
【机器学习】EM算法详细推导和讲解
今天不太想学习,炒个冷饭,讲讲机器学习十大算法里有名的EM算法,文章里面有些个人理解,如有错漏,还请读者不吝赐教. 众所周知,极大似然估计是一种应用很广泛的参数估计方法.例如我手头有一些东北人的身高的 ...
详解十大经典机器学习算法——EM算法
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第14篇文章,我们来聊聊大名鼎鼎的EM算法. EM算法的英文全称是Expectation-maximization al ...
【机器学习】--EM算法从初识到应用
一.前述 Em算法是解决数学公式的一个算法,是一种无监督的学习. EM算法是一种解决存在隐含变量优化问题的有效方法.EM算法是期望极大(Expectation Maximization)算法的简称,E ...

随机推荐

keepalive support-----Programming applications
TCP Keepalive HOWTO Prev Next 4. Programming applications This section deals with programming code ...
request对象
Servlet三大域对象的应用 request.session.application(ServletContext) 请求转发器: public void doGet(HttpServletRequ ...
WebService学习笔记系列（三）
网上有一些提供webservice服务的网站,我们要怎么调用呢? 今天来看个如何调用手机归属地查询服务.这个网站上提供了许多webservice服务,其中包括手机归属地查询服务,我们今天就用wsimp ...
plupload使用指南（转）
转自http://www.cnblogs.com/2050/p/3913184.html 现在随着html5技术的逐渐推广和普及,再去使用以flash为上传手段的SWFUpload显然就有点过时了,毕 ...
String类比较，String类运算比较，String运算
String类比较,String类运算比较 >>>>>>>>>>>>>>>>>>>&g ...
phpstrtotime()对于31日求上个月有问题
PHP自带的strtotime()对于31日求上个月有问题,如下: <?php $date = "2012-07-31"; $date_unix = strtotime($d ...
C# 重写思想
问题一:什么是重写? “重写”父类方法就是修改它的实现方式或者说在子类中对它进行重新编写. 问题二:为什么要重写父类的方法通常,子类继承父类的方法,在调用对象继承方法的时候,调用和 ...
jquery 对select option 增删改查
一.查 jQuery获取select的Text和Value: 代码如下: 1.当select添加选择事件,当选择其中一项时触发: $("#select_id"). ...
jQuery UI 日期控件--datepicker
在web开发中,日期的输入经常会遇到.我们会用的解决方法有: 1.自己写css和js,对日期进行控制:----有点浪费精力和时间: 2.用easyui插件中的日期插件来实现: 3.用juqery-ui ...
python中的“引用”和C++的引用
python并不刻意区分“按值传递”和“按引用传递”. 在底层,python将值分为不可变对象(比如int,str)和可变对象(比如列表).所有的变量都是对某个对象的引用,赋值(=)和函数参数传递,都 ...

简单易学的机器学习算法——EM算法