EM算法[转]

最大期望算法：EM算法。

在统计计算中，最大期望算法（EM）是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量。

最大期望算法经过两个步骤交替进行计算：

第一步是计算期望（E），利用对隐藏变量的现有估计，计算其最大似然估计值；

第二步是最大化（M），最大化在E步上求得的最大似然值来计算参数的值。

M步上找到的参数估计值被用于下一个E步计算中，这个过程不断交替进行。

总体来说，EM算法流程如下：

1、初始化分布参数

2、重复直到收敛：

E步：估未知参数的期望值，给出当前的参数估计。

M步：重新估计参数分布，以使得数据的似然性最大，给出未知变量的期望估计。
EM算法就是这样，假设我们估计知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。

EM算法是一种求参数极大似然估计的方法，它可以从非完整数据集中对参数进行MLE估计，是一种非常简单实用的学习算法。

假定集合Z=(X,Y)由观测数据X和为观测数据Y组成，X和Z=(X,Y)分别称为不完整数据和完整数据。假定Z的联合概率密度被参数化地定义为P(X,Y|Θ)，其中Θ表示要被估计的参数。Θ的最大似然估计是求不完整数据的对数似然函数L(X,Θ)的最大值而得到的：

L(Θ;X)=log p(X|Θ)=∫ log p(X,Y|Θ)dY;

EM算法包括两个步骤：由E步和M步组成，它是通过迭代地最大化完整数据的对数似然函数L_c(X;Θ)的期望来最大化不完整数据的对数似然函数，其中：L_c(X;Θ)=log p(X,Y|Θ)

假设在算法第t次迭代后Θ获得的估计记为Θ（t），则在（t+1）次迭代时，

E步：计算完整数据的对数似然函数的期望，记为Q（Θ|Θ（t））=E{Lc(Θ;Z)|X;Θ(t) }；

M步：通过最大化Q(Θ |Θ(t) ) 来获得新的Θ 。

通过交替使用这两个步骤，EM算法逐步改进模型的参数，使参数和训练样本的似然概率逐渐增大，最后终止于一个极大点。直观地理解EM算法，它也可被看作为一个逐次逼近算法：

实现并不知道模型的参数，可以随机的选择一套参数或者事先粗略地给定某个初始参数λ₀ ，确定出对应于这组参数的最可能的状态，计算每个训练样本的可能结果的概率，在当前的状态下再由样本对参数修正，重新估计参数λ，并在新的参数下重新确定模型的状态，这样，通过多次的迭代，循环直至某个收敛条件满足为止，就可以使得模型的参数逐渐逼近真实参数。

EM算法的主要目的是提供一个简单的迭代算法计算后验密度函数，它的最大优点是简单和稳定，但容易陷入局部最优

EM算法（expectation-maximization algorithm）

1、简介

EM算法的核心思想是：根据已有的数据，借助隐藏变量，通过期望值之间的迭代，估计似然函数。

2、混合高斯模型与EM算法

2.1、二分量混合高斯的EM算法

假设有数据Y，现在用两个高斯分布来对密度建模，参数为。则Y的密度为：

（1）

参数为：（2）

基于N个训练数据的对数似然是：

（3）

由于需要求对数似然函数项的和，直接极大化似然函数很难。我们引入取值为0或1的潜变量，如果，则取自模型2，否则取自模型1。则对数似然函数可以写为：

（4）

那么和的极大似然估计将是的那些数据的样本的均值和方差，和的极大似然估计将是的那些数据的样本的均值和方差。

由于诸的值是实际上是未知的，所以用迭代的方式处理，用下式的期望代替（4）式中的每个，即：（5）

（5）式也称为模型2关于观测i的响应度。

二分量高斯的EM算法

初始化参数，其中可以随机选择两个取样本的方差：。混合比例取0.5。
期望步：计算响应度：

表征数据属于的概率。

3. 极大化步：计算加权均值和方差：

和混合概率，表示数据属于的概率总和。

4. 重复步骤2,3直到收敛。

2.2 多分量混合高斯的EM算法

多分量高斯的EM算法

初始化参数:均值，协方差矩阵和混合比例
期望步：计算响应度：

其中k = 1,2…N.

3. 极大化步：计算加权均值和协方差：

其中：

4. 计算log似然：

检查参数和log似然是否已经收敛，如果没有收敛，重复步骤2.

3、通用EM算法

假设一个完整的样本集D，其中的样本是，都服从某个特定的分布，假定其中的一部分数据丢失了。完整的数据和丢失的数据分布标书为：和，并且。定义函数：（6）

（6）式的左边是一个关于θ的函数，而θⁱ假设已经取固定值；右边表示关于丢失的特征求对数似然函数的期望，其中假设θⁱ是描述整个分布的参数。则通用EM算法可写为：

4. EM算法总结

（1）EM会收敛到局部极值，但不保证收敛到全局最优

（2）对初值很敏感：通常需要一个好的、快速的初始化过程

如矩方法得到的结果

在GMM中，用K-means聚类

（3）适合的情况

缺失数据不太多时

数据维数不太高时（数据维数太高的话，E步的计算很费时）

EM算法[转]的更多相关文章

学习笔记——EM算法
EM算法是一种迭代算法,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计.EM算法的每次迭代由两步组成:E步,求期望(expectation):M步,求 ...
K-Means聚类和EM算法复习总结
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 6.适用场合内容: 1.算法概述 k-means算法是一种得到最广泛使用的聚类算法. 它是将各个聚类子集内 ...
EM算法总结
EM算法总结 - The EM Algorithm EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法.在之后的MT中的词对齐中也用 ...
GMM的EM算法实现
转自:http://blog.csdn.net/abcjennifer/article/details/8198352 在聚类算法K-Means, K-Medoids, GMM, Spectral c ...
EM算法（4）：EM算法证明
目录 EM算法(1):K-means 算法 EM算法(2):GMM训练算法 EM算法(3):EM算法运用 EM算法(4):EM算法证明 EM算法(4):EM算法证明 1. 概述上一篇博客我们已经讲过 ...
EM算法（3）：EM算法运用
目录 EM算法(1):K-means 算法 EM算法(2):GMM训练算法 EM算法(3):EM算法运用 EM算法(4):EM算法证明 EM算法(3):EM算法运用 1. 内容 EM算法全称为 Exp ...
EM算法（2）：GMM训练算法
目录 EM算法(1):K-means 算法 EM算法(2):GMM训练算法 EM算法(3):EM算法运用 EM算法(4):EM算法证明 EM算法(2):GMM训练算法 1. 简介 GMM模型全称为Ga ...
EM算法（1）：K-means 算法
目录 EM算法(1):K-means 算法 EM算法(2):GMM训练算法 EM算法(3):EM算法运用 EM算法(4):EM算法证明 EM算法(1) : K-means算法 1. 简介 K-mean ...
[MCSM]随机搜索和EM算法
1. 概述本节将介绍两类问题的不同解决方案.其一是通过随机的搜索算法对某一函数的取值进行比较,求取最大/最小值的过程:其二则和积分类似,是使得某一函数被最优化,这一部分内容的代表算法是EM算法.(书 ...
EM算法
EM算法的推导

随机推荐

20155323 第四次实验 Android程序设计实验报告
20155323 第四次实验 Android程序设计实验报告实验内容 1.基于Android Studio开发简单的Android应用并部署测试; 2.了解Android.组件.布局管理器的使用: ...
20155339《java程序设计》第十二周课堂实践总结
Arrays和String单元测试在IDEA中以TDD的方式对String类和Arrays类进行学习测试相关方法的正常,错误和边界情况 String类 charAt split Arrays类 s ...
switchsharp
https://www.switchysharp.com/file/switchysharp-v1.10.4.zip
WebAPI学习笔记
WebAPI WebApi是添加到Asp.Net平台的一个新特性,可以快速的创建Web服务,并对客户端提供HTTP的API调用接口 WebApi是建立在MVC框架基础之上,但不属于MVC的一部分. 序 ...
python开发ftp服务器第一天(pyftpdlib)
学习了大约快一个月的python,现在开始有意识做一些项目.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 据我了解,python现在更多的是用于自动化运维方面, ...
Mybatis JPA-集成方案+源码
2018-04-18 update 当前文章已过时,请访问代码仓库查看当前版本wiki. github https://github.com/cnsvili/mybatis-jpa gitee htt ...
Vue 数组封装和组件data定义为函数一些猜测
数组封装 var vm={ list:[0,1] } var push=vm.list.push;//把数组原来的方法存起来 vm.list.push=function(arg){//重新定义数组的 ...
centos7 python2.7.5 升级python3.6.4
(转)Linux Centos7 升级python2至python3 - 依然范儿特西的文章 - 知乎 https://zhuanlan.zhihu.com/p/33660059 1 查看python ...
JMeter自学笔记1-环境安装
一.写在前面的话: Jmeter是一款优秀的开源测试工具, 是每位测试工程师进阶过程中,需要熟悉并掌握的一款测试工具,熟练使用Jmeter能大大提高工作效率. Jmeter环境安装需要依赖JDK,所以 ...
python2和python3同时存在如何安装和使用pip
linux下如果没有pip则需要安装pip python2安装pip sudo apt install python-pip1如果是python3,则如下: sudo apt install pyt ...

EM算法[转]

EM算法（expectation-maximization algorithm）

EM算法[转]的更多相关文章

随机推荐

热门专题