机器学习（二十五）— 极大似然估计（MLE）、贝叶斯估计、最大后验概率估计（MAP）区别

　　最大似然估计（Maximum likelihood estimation, 简称MLE）和最大后验概率估计（Maximum aposteriori estimation, 简称MAP）是很常用的两种参数估计方法。

1、最大似然估计（MLE）

　　在已知试验结果（即是样本）的情况下，用来估计满足这些样本分布的参数，把可能性最大的那个参数作为真实的参数估计。

　　也就是说，最大似然估计，就是利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值(模型已知，参数未知）。

（1）基本思想

　　当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。

　　例如，我们知道这个分布是正态分布，但是不知道均值和方差；或者是二项分布，但是不知道均值。最大似然估计（MLE，Maximum Likelihood Estimation）就可以用来估计模型的参数。MLE的目标是找出一组参数，使得模型产生出观测数据的概率最大。

（2）模型推导

　　假设样本集D={x1 、x2 、…、xn}，假设样本之间都是相对独立的，注意这个假设很重要！于是便有：

　　所以假设似然函数为：

　　接下来我们求参的准则便是如名字一样最大化似然函数：

　　如果求得的θ 是参数空间中能使似然函数最大的取值，则θ是最可能的参数取值，即最大的似然估计值。

　　似然函数取对数：就是防止先验概率为0，那么上面的L(θ|D)整个式子便都成0 了，那肯定是不行的啊，不能因为一个数据误差影响了整个数据的使用。同时那么多先验概率相乘，可能出现下溢出。所以引入拉普拉斯修正，也就是取对数ln，想必大家在数学中都用过这种方法的。

　　所以最大化的目标便是：

　　之后对参数求偏导，偏导数为0，求解最优值。

　　 求最大似然函数估计值的一般步骤：
（1）写出似然函数
（2）对似然函数取对数，并整理
（3）求导数
（4）解似然方程

（3）推导举例

　　我们拿这枚硬币抛了10次，得到的数据（x0）是：反正正正正反正正正反。我们想求的正面概率θθ是模型参数，而抛硬币模型我们可以假设是二项分布。那么，出现实验结果x0（即反正正正正反正正正反）的似然函数是多少呢？

　　对似然函数求对数，得到对数似然函数后对参数θ求导，令导数为0，求解θ的值。此处求得θ=0.7。

（4）最大似然估计的特点：

1.比其他估计方法更加简单；

2.收敛性：无偏或者渐近无偏，当样本数目增加时，收敛性质会更好；

3.如果假设的类条件概率模型正确，则通常能获得较好的结果。但如果假设模型出现偏差，将导致非常差的估计结果。

2、贝叶斯估计

　　贝叶斯统计的重点：参数未知且不确定，因此作为随机变量，参数本身也是一个分布，同时，根据已有的信息可以得到参数θ的先验概率，根据先验概率来推断θ的后验概率。

　　不同于ML估计，不再把参数θ看成一个未知的确定变量，而是看成未知的随机变量，通过对第i类样本D_i的观察，使概率密度分布P(D_i|θ)转化为后验概率P(θ|D_i)，再求贝叶斯估计。

　　贝叶斯估计是在MAP上做进一步拓展，此时不直接估计参数的值，而是允许参数服从一定概率分布。极大似然估计和极大后验概率估计，都求出了参数theta的值，而贝叶斯推断则不是，贝叶斯推断扩展了极大后验概率估计MAP（一个是等于，一个是约等于）方法，它根据参数的先验分布P(theta)和一系列观察X，求出参数theta的后验分布P(theta|X)，然后求出theta的期望值，作为其最终值。另外还定义了参数的一个方差量，来评估参数估计的准确程度或者置信度。

　　贝叶斯估计：从参数的先验知识和样本出发。期望后延信息在真实的θ值处有一个尖峰。

　　贝叶斯公式：

　　根据特征条件独立性假设：其中X 是多个特征的矩阵，Y 是类别标签

　　我们可以计算出任一样本x属于类别的概率，选择其中概率最大者便可作为其分类的类标。

基本步骤：

3、似然函数和概率函数

　　概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。统计是，有一堆数据，要利用这堆数据去预测模型和参数。

　　概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。

　　在统计里面，似然函数和概率函数却是两个不同的概念（其实也很相近就是了）。

　　对于这个函数：P(x|θ)。输入有两个：x表示某一个具体的数据；θ表示模型的参数。

　　如果θ是已知确定的，x是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点x，其出现概率是多少。

　　如果x是已知确定的，θ是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，出现x这个样本点的概率是多少。

4、最大后验概率估计（MAP）

　最大似然估计是求参数θ, 使似然函数P(x0|θ)最大。

　　最大后验概率估计则是想求θ使P(x0|θ)P(θ)最大。求得的θ不单单让似然函数大，θ自己出现的先验概率也得大。

　　最大后验概率估计是最大似然和贝叶斯估计的结合，

　　其实如果MAP的后验概率中P(θ) = 1，就是最大似然概率。也就是说最大似然概率默认未知参数 θ 取值都是等可能性的，而最大后验概率在参数估计时考虑了参数的先验概率。

4、对比总结

极大似然估计、最大后验估计和贝叶斯估计都是参数估计方法。
极大似然估计和最大后验估计都是点估计，即把参数看成未知常数，通过最大化似然和后验概率实现。
贝叶斯估计把参数看成一个随机变量，属于分布估计，然后求该随机变量在数据集D下的条件期望。
当先验为均匀分布时，极大似然估计和最大后验估计是等价的。即估计参数的先验概率为 1 ；
当先验和似然都是高斯分布时，最大后验估计和贝叶斯估计是等价的。
通常情况下，贝叶斯估计的积分很难计算，但可以采取一些近似方法，如拉普拉斯和变分近似以及马尔科夫链蒙特卡洛抽样。

参考：https://blog.csdn.net/u011508640/article/details/72815981

机器学习（二十五）— 极大似然估计（MLE）、贝叶斯估计、最大后验概率估计（MAP）区别的更多相关文章

jQuery 源码解析(二十五) DOM操作模块 html和text方法的区别
html和text都可以获取和修改DOM节点里的内容,方法如下: html(value) ;获取匹配元素集合中的一个元素的innerHTML内容,或者设置每个元素的innerHTML内容, ...
剑指Offer（二十五）：复杂链表的复制
剑指Offer(二十五):复杂链表的复制搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多算法.机器学习干货 csdn:https://blog.csdn.net/bai ...
Bootstrap <基础二十五>警告（Alerts）
警告(Alerts)以及 Bootstrap 所提供的用于警告的 class.警告(Alerts)向用户提供了一种定义消息样式的方式.它们为典型的用户操作提供了上下文信息反馈. 您可以为警告框添加一个 ...
VMware vSphere 服务器虚拟化之二十五桌面虚拟化之终端服务池
VMware vSphere 服务器虚拟化之二十五桌面虚拟化之终端服务池终端服务池是指由一台或多台微软终端服务器提供服务的桌面源组成的池.终端服务器桌面源可交付多个桌面.它具有以下特征: 1.终端 ...
WCF技术剖析之二十五: 元数据（Metadata）架构体系全景展现[元数据描述篇]
原文:WCF技术剖析之二十五: 元数据(Metadata)架构体系全景展现[元数据描述篇] 在[WS标准篇]中我花了很大的篇幅介绍了WS-MEX以及与它相关的WS规范:WS-Policy.WS-Tra ...
Bootstrap入门（二十五）JS插件2：过渡效果
Bootstrap入门(二十五)JS插件2:过渡效果对于简单的过渡效果,只需将 transition.js 和其它 JS 文件一起引入即可.如果你使用的是编译(或压缩)版的bootstrap.js ...
JAVA基础再回首（二十五）——Lock锁的使用、死锁问题、多线程生产者和消费者、线程池、匿名内部类使用多线程、定时器、面试题
JAVA基础再回首(二十五)--Lock锁的使用.死锁问题.多线程生产者和消费者.线程池.匿名内部类使用多线程.定时器.面试题版权声明:转载必须注明本文转自程序猿杜鹏程的博客:http://blog ...
JAVA之旅（二十五）——文件复制,字符流的缓冲区，BufferedWriter，BufferedReader，通过缓冲区复制文件，readLine工作原理，自定义readLine
JAVA之旅(二十五)--文件复制,字符流的缓冲区,BufferedWriter,BufferedReader,通过缓冲区复制文件,readLine工作原理,自定义readLine 我们继续IO上个篇 ...
Java进阶(二十五)Java连接mysql数据库(底层实现)
Java进阶(二十五)Java连接mysql数据库(底层实现) 前言很长时间没有系统的使用java做项目了.现在需要使用java完成一个实验,其中涉及到java连接数据库.让自己来写,记忆中已无从搜 ...

随机推荐

getTrim(strMz)-我的JavaScript函数库-mazey.js
因为一些旧版本的浏览器对于JS的trim()不支持,所以可以用正则代替此功能. 参数:strMz,字符串,必需. function getTrim(strMz) { return strMz.r ...
前端基础 & 初识CSS
CSS介绍 CSS(Cascading Style Sheet,层叠样式表)定义如何显示HTML元素.l 当浏览器读到一个样式表,它就会按照这个样式表来对文档进行格式化(渲染). CSS语法每个CS ...
Linux安装配置
虚拟机配置Linux镜像文件配置网路防火墙一.虚拟机配置Linux镜像文件 1.将下载好的Linux镜像文件载入进来 2.启动虚拟机,安装 3.此步为是否检测linux系统,我们选择" ...
（4.11）sql server内存使用
一些内存使用错误理解开篇小感悟在实际的场景中会遇到各种奇怪的问题,为什么会感觉到奇怪,因为没有理论支撑的东西才感觉到奇怪,SQL Server自己管理内存,我们可以干预的方式也很少,所以日常很 ...
marquee标记
页面的自动滚动效果,可由javascript来实现, 但是有一个html标签 - <marquee></marquee>可以实现多种滚动效果,无需js控制. 使用marquee ...
Django 补充models操作，中间件，缓存，信号，分页
1.Model 一对多补充 models如下: class UserType(models.Model): caption = models.CharField(max_length=16) cla ...
JQuery Div层滚动条控制（模拟横向滚动条在最顶端显示）
想让DIV层滚动条显示在顶端,CSS样式没找到相关属性,于是用2个DIV层来模拟做了一个.经测试IE浏览器上显示并不太美观!不知道是否还有更好的办法可以实现这功能呢? aaaaaaasssssss ...
【HackerRank】Encryption
One classic method for composing secret messages is called a square code. The spaces are removed fr ...
R语言的输出函数cat,sink，writeLines，write.table
根据输出的方向分为输出到屏幕和输出到文件. 1.cat函数即能输出到屏幕,也能输出到文件. 使用方式:cat(... , file = "", sep = " " ...
myisam表修复
数据库myisam引擎表损坏修复步骤: 1.进入到表目录文件下 # myisamchk -of comments.MYI 2. # myisamchk -r comments.MYI 3. # ...

机器学习（二十五）— 极大似然估计（MLE）、贝叶斯估计、最大后验概率估计（MAP）区别

机器学习（二十五）— 极大似然估计（MLE）、贝叶斯估计、最大后验概率估计（MAP）区别的更多相关文章

随机推荐

热门专题