EM算法理论与推导

EM算法（Expectation-maximization），又称最大期望算法，是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计（或极大后验概率估计）

从定义可知，该算法是用来估计参数的，这里约定参数为 $\theta$ 。既然是迭代算法，那么肯定有一个初始值，记为 $\theta^{(0)}$ ，然后再通过算法计算 $\theta^{(1)},\theta^{(2)},\dots,\theta^{(t)}$

通常，当模型的变量都是观测变量时，可以直接通过极大似然估计法，或者贝叶斯估计法估计模型参数。但是当模型包含隐变量时，就不能简单的使用这些估计方法

举个具体的栗子：

永远在你身后：Matplotlib输出动画实现K-means聚类过程可视化zhuanlan.zhihu.com

K-means算法中，除了给定的样本（也就是观测变量） $X$ 以及参数 $\theta$ （也就是那些个聚类的中心）之外，还包含一个隐变量（记为 $Z$ ），它是每个样本的所属类别

可以理解为，我们之所以对一批样本进行聚类，也是因为认为这些样本是有它们潜在的类别的，也就是说还有一个隐变量是我们没有（或者无法）观测到的

下面先给出EM算法的步骤公式，然后再对公式进行推导。假设在第 $i$ 次迭代后参数的估计值为 $\theta^{(i)}$ ，对于第 $i+1$ 次迭代，分为两步

E步，求期望：

$\begin{align} Q\left(\theta,\theta^{\left(i\right)}\right)&=\sum_{Z}{P\left(Z|X,\theta^{\left(i\right)}\right)\log{P\left(X,Z|\theta\right)}}\\ &=\mathbb{E}_{Z|X,\theta^{\left(i\right)}}\left[\log{P\left(X,Z|\theta\right)}\right] \end{align} \\$

关于的随机变量的函数的期望，公式在后面会给出

M步，最大化：

$\theta^{(i+1)} =\arg \max_\theta{Q\left(\theta,\theta^{\left(i\right)}\right)} \\$

其中， $Q\left(\theta,\theta^{\left(i\right)}\right)$ 称为 $Q$ 函数，是EM算法的核心。下面就来对公式进行推导

给定一组观测数据记为 $X=(x_1,x_2,\dots,x_n)$ ，以及参数 $\theta$ 。因为 $x_1,x_2,\dots,x_n$ 是独立同分布，所以有以下对数似然函数：

$\begin{align} \ell(\theta|X)&=\log{P\left(X|\theta\right)} \\ &=\log\left( \prod_{i=1}^n P\left(x_i|\theta\right) \right) \\ &=\sum_{i=1}^n \log P(x_i|\theta) \end{align} \\$

可以通过极大似然估计来求解最优参数，即：

$\begin{align} \hat{\theta}&=\arg \max_\theta \log{\ell\left(\theta|X\right)}\\ &=\arg \max_\theta \sum_{i=1}^n \log P(x_i|\theta) \end{align} \\$

但是由于隐变量的存在， $\log{P\left(X|\theta\right)}$ 变为

$\begin{align} \log{P\left(X\middle|\theta\right)}&=\log{\sum_{Z}\ P\left(X,Z|\theta\right)}\\ &=\log{\left(\sum_{Z}\ P\left(X|\theta,Z\right)P\left(Z|\theta\right)\right)} \end{align}\\$

注意：联合概率公式 P(XZ)=P(X|Z)P(Z)

这样直接求解就变得困难，一个办法是构造一个容易优化的——关于对数似然函数的——下界函数，通过不断的优化这个下界，迭代逼近最优参数。为了方便下面推导流畅，提前先贴几个公式

随机变量的数学期望

$\mathbb{E}\left[X\right]=\sum_{x\in X} x P\left(x\right) \\$

随机变量函数的数学期望。设 $= ( )$ ，则 $Y$ 的期望为：

$\mathbb{E}\left[Y\right]=\mathbb{E}\left[g\left(X\right)\right]=\sum_{x\in X} g\left(x\right)P\left(x\right) \\$

相对熵

$KL\left(p||q\right)=\sum_{x\in X}{p\left(x\right)log{\frac{p\left(x\right)}{q\left(x\right)}}} \\$

下面是具体的推导。首先引入隐变量 $Z$ 的概率分布 $q(Z)$ ，满足

$\sum_Z q(Z)=1 \\$

并且以下等式成立

$P\left(X|\theta\right)=\frac{P\left(X,Z|\theta\right)}{P\left(Z|X,\theta\right)}=\frac{P\left(X,Z|\theta\right)/q\left(Z\right)}{P\left(Z|X,\theta\right)/q\left(Z\right)} \\$

两边同时取对数

$\begin{align} \log{P\left(X|\theta\right)}&=\log{\frac{P\left(X,Z|\theta\right)/q\left(Z\right)}{P\left(Z|X,\theta\right)/q\left(Z\right)}} \end{align}\\$

同时求两边在 $Z$ 上的期望

$\mathbb{E}_Z\left[\log{P\left(X|\theta\right)}\right]=\mathbb{E}_Z\left[\log{\frac{P\left(X,Z|\theta\right)/q\left(Z\right)}{P\left(Z|X,\theta\right)/q\left(Z\right)}}\right] \\$

因为 $\log{P\left(X|\theta\right)}$ 与 $Z$ 无关，所以求期望仍然不变：

$\begin{align} \mathbb{E}_Z\left[\log{P\left(X|\theta\right)}\right]&=\sum_{Z}{q\left(Z\right)\log{P\left(X|\theta\right)}}\\ &=\log{P\left(X|\theta\right)}\sum_{Z} q\left(Z\right)\\ &=\log{P\left(X|\theta\right)} \end{align}\\$

然后将右边展开

$\begin{align} \mathbb{E}_Z\left[\log{\frac{P\left(X,Z|\theta\right)/q\left(Z\right)}{P\left(Z|X,\theta\right)/q\left(Z\right)}}\right]&=\sum_{Z}{q\left(Z\right)\log{\frac{P\left(X,Z|\theta\right)/q\left(Z\right)}{P\left(Z|X,\theta\right)/q\left(Z\right)}}}\\ &=\sum_{Z}{q\left(Z\right)\log{\frac{P\left(X,Z|\theta\right)}{q\left(Z\right)}}}-\sum_{Z}{q\left(Z\right)\log{\frac{P\left(Z|X,\theta\right)}{q\left(Z\right)}}}\\ &=\sum_{Z}{q\left(Z\right)\log{\frac{P\left(X,Z|\theta\right)}{q\left(Z\right)}}}+\sum_{Z}{q\left(Z\right)\log{\frac{q\left(Z\right)}{P\left(Z|X,\theta\right)}}}\\ &=\sum_{Z}{q\left(Z\right)\log{\frac{P\left(X,Z|\theta\right)}{q\left(Z\right)}}}+KL\left(q\left(Z\right)||P\left(Z|X,\theta\right)\right)\\ &\geq\sum_{Z}{q\left(Z\right)\log{\frac{P\left(X,Z|\theta\right)}{q\left(Z\right)}}} \end{align}\\$

由此得到对数似然函数的下界。并且当 $KL\left(q\left(Z\right)||P\left(Z|X,\theta\right)\right) = 0$ ，上式可以取到等号，由相对熵的性质可知，相对熵为0，也就是 $q(Z)=P(Z|X,\theta)$

其中 $q(Z)$ 是 $Z$ 的概率分布，但是因为无法观测 $Z$ ，所以 $q(Z)$ 未知，可以假设其等于 $P(Z|X,\theta)$ ，也就是 $Z$ 关于给定 $X$ 与 $\theta$ 的后验，且 $\theta$ 是由初始值 $\theta^{(0)}$ 一次次迭代计算而来，所以此处的 $\theta$ 是迭代 $i$ 次后的值

$P(Z|X,\theta) = P(Z|X,\theta^{(i)}) \\$

然后通过极大似然估计得到：

$\begin{align} \hat{\theta}&=\arg{\max_\theta{\sum_{Z}{q\left(Z\right)\log{\frac{P\left(X,Z|\theta\right)}{q\left(Z\right)}}}}}\\ &=\arg{\max_\theta{\sum_{Z}{P\left(Z|X,\theta^{\left(i\right)}\right)\log{\frac{P\left(X,Z|\theta\right)}{P\left(Z|X,\theta^{\left(i\right)}\right)}}}}}\\ &=\arg{\max_\theta{\sum_{Z}\ P\left(Z|X,\theta^{\left(i\right)}\right)\left(\log{P\left(X,Z|\theta\right)}-\log{P\left(Z|X,\theta^{\left(i\right)}\right)}\right)}}\\ &=\arg{\max_\theta{\sum_{Z}{P\left(Z|X,\theta^{\left(i\right)}\right)\log{P\left(X,Z|\theta\right)}}}}\\ &=\arg{\max_\theta{\mathbb{E}_{Z|X,\theta^{\left(i\right)}}\left[\log{P\left(X,Z|\theta\right)}\right]}} \end{align}\\$

以上，就是EM算法中E步的由来，然后令 $\hat{\theta}= \theta^{(i+1)}$ ，就得到了M步的公式

$\theta^{(i+1)}=\arg{\max_\theta{\mathbb{E}_{Z|X,\theta^{\left(i\right)}}\left[\log{P\left(X,Z|\theta\right)}\right]}}\\$

以上就是EM算法的推导过程，为了加深理解，我们可以换一个角度来总结一下。前面我们定义了似然函数

$\ell(\theta|X)= \log{P\left(X|\theta\right)}=\log{\left(\sum_{Z}\ P\left(X|\theta,Z\right)P\left(Z|\theta\right)\right)}\\$

由于累加号嵌套在 $\log$ 函数中，难以直接进行求解，如果换一个似然函数，就容易的多

$\ell(\theta|X,Z)=\log{P\left(X,Z|\theta\right)}\\$

但是，又由于的 $Z$ 是隐变量，无法得到它的概率分布，只能通过给定的 $X$ 和 $\theta$ 来计算它的后验分布，然后求似然函数在此分布上的期望

$\mathbb{E}_{Z|X,\theta^{\left(i\right)}}\left[\log{P\left(X,Z|\theta\right)}\right] = \mathbb{E}_{Z|X,\theta^{\left(i\right)}}\left[\ell(\theta|X,Z)\right] \\$

最后，再寻找能使似然函数的期望最大化的参数

EM算法理论与推导的更多相关文章

Machine Learning系列--EM算法理解与推导
EM算法,全称Expectation Maximization Algorithm,译作最大期望化算法或期望最大算法,是机器学习十大算法之一,吴军博士在<数学之美>书中称其为“上帝视角”算 ...
EM算法定义及推导
EM算法是一种迭代算法,传说中的上帝算法,俗人可望不可及.用以含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计 EM算法定义输入:观测变量数据X,隐变量数据Z,联合分布\(P(X,Z|\t ...
python机器学习笔记：EM算法
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域的基础,比如隐式马尔科夫算法(HMM),LDA主题模型的变分推断算法等等.本文对于E ...
高斯混合模型参数估计的EM算法
# coding:utf-8 import numpy as np def qq(y,alpha,mu,sigma,K,gama):#计算Q函数 gsum=[] n=len(y) for k in r ...
EM算法(Expectation Maximization Algorithm)
EM算法(Expectation Maximization Algorithm) 1. 前言这是本人写的第一篇博客(2013年4月5日发在cnblogs上,现在迁移过来),是学习李航老师的< ...
EM算法求高斯混合模型參数预计——Python实现
EM算法一般表述: 当有部分数据缺失或者无法观察到时,EM算法提供了一个高效的迭代程序用来计算这些数据的最大似然预计.在每一步迭代分为两个步骤:期望(Expectation)步骤和最大化( ...
EM算法小结
猴子吃果冻博客园首页新随笔联系管理订阅随笔- 35 文章- 0 评论- 3 4-EM算法原理及利用EM求解GMM参数过程 1.极大似然估计原理:假设在一个罐子中放着许多白球和 ...
【机器学习】EM算法详细推导和讲解
今天不太想学习,炒个冷饭,讲讲机器学习十大算法里有名的EM算法,文章里面有些个人理解,如有错漏,还请读者不吝赐教. 众所周知,极大似然估计是一种应用很广泛的参数估计方法.例如我手头有一些东北人的身高的 ...
EM算法以及推导
EM算法 Jensen不等式其实Jensen不等式正是我们熟知的convex函数和concave函数性质,对于convex函数,有 \[ \lambda f(x) + (1-\lambda)f(y) ...

随机推荐

SpringBoot后端系统的基础架构
前言前段时间完成了毕业设计课题--<基于Spring Boot + Vue的直播后台管理系统>,项目名为LBMS,主要完成了对直播平台数据的可视化展示和分级的权限管理.虽然相当顺利地通过 ...
安装并配置Samba
1. 安装 samba ~$sudo apt-get install samba 2. 修改 samba 的配置文件 ~$sudo gedit /etc/samba/smb.conf 添加如下内容 [ ...
Linux中GitLab的部署
1.版本控制介绍版本控制最主要的功能就是追踪文件的变更.它将什么时候.什么人更改了文件的什么内容等信息忠实地了记录下来.每一次文件的改变,文件的版本号都将增加.除了记录版本变更外,版本控制的另一 ...
iostst
原文链接:https://blog.csdn.net/qq_20332637/article/details/82146753 iostat用于输出CPU和磁盘I/O相关的统计信息,iostat 也有 ...
c常用函数-atoi 和 itoa
atoi 和 itoa atoi的功能是把一个字符串转为整数 Action(){ int j; char *s=""; j = atoi(s); lr_output_message ...
基础拾遗---委托，匿名函数，lambda
前言: C# 中的委托(Delegate)类似于 C 或 C++ 中函数的指针.委托是存有对某个方法的引用的一种引用类型变量.引用可在运行时被改变.委托(Delegate)特别用于实现事件和回调方法. ...
ca78a_c++_字符串流在内存中的输入输出(速度快)
/*ca78a_c++_字符串流在内存中的输入输出**字符串流:在内存中的输入输出.(在内存中进行,速度快)**文件流 :是对文件进行输入和输出.(在磁盘里面进行)istringstream(输入), ...
Rigidbody（刚体）方法的初步学习（一）
概要:这次将简单的了解Rigidbody中的各种方法属性,以官方的API为顺序研究. 蛮牛API翻译:Rigidbody组件控制物体的位置—它使物体在重力影响下下落,并可计算物体将怎样响应碰撞.当操作 ...
unittest模块在linux报错: AttributeError: module 'unittest' has no attribute 'TestRunner'
一开始在windows下运行没有问题,但是在linux下运行却报如下错误: AttributeError: module 'unittest' has no attribute 'TestRunn ...
WeChair Plus版项目介绍
这个作业属于哪个课程软件工程 (福州大学至诚学院 - 计算机工程系) 团队名称 WeChair 这个作业要求在哪里团队作业第一次:团队作业第一次(2) 这个作业的目标项目介绍,项目修改作业正文 ...

EM算法理论与推导

EM算法理论与推导的更多相关文章

随机推荐

热门专题