极大似然估计&最大后验概率估计

https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/

http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/MLvsMAP.pdf

经验风险最小化：

\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))

结构风险最小化：

\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f)

李航博士《统计学习方法》中第一章第九页中有两个论断

1 当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计

证明论断1：

极大似然估计：对于观测的随机变量D，其总体分布为

P(D;\theta)

S为抽样得到的样本，

S=(s_1,s_2,...,s_N)

样本是独立同分布得到的，因此样本的分布为

L(\theta) = \prod_{i=1}^{N} P(s_i;\theta)

当

S=(s_1,s_2,...,s_N)

确定，则上式可以看做是

\theta

的函数。

这个函数反映了在观察结果已知的情况下，

\theta

的“似然程度”，因此上式被叫做似然函数。用似然程度最大的那个

\theta_{*}

去做

\theta

的估计，这种估计方法叫做"极大似然估计"。取对数，极大平均似然函数为：

\max log L(\theta)=\max \frac{1}{N}\sum_{i=1}^{N}log P(s_i;\theta)

上式等价于

\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(s_i;\theta)

在统计学习中，S就是样本，

s_{i}=(x_i,y_i).x_i\mbox{为特征,}y_i{为标签}

当模型是条件概率分布时，则

P(s_i;\theta)=P(y_i|x_i;\theta)

\min -log L(\theta)=\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta) -----（1）

当损失函数是对数损失函数(

L(Y,P(Y|X)) = -log P(Y|X)

)，则最小化经验风险的公式为

\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))

=\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L(y_i,p(y_i|x_i;\theta))

=\min \limits_{f\in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} -log p(y_i|x_i;\theta) -----（2）

对比(1)(2)两个公式，论断1得证。

证明论断2

极大似然估计将

\theta

看做是一个确定但未知的常量，而贝叶斯学派则认为

\theta

可以看做一个随机变量，从这个视角出发可得到条件概率

P(\theta|S)

因此利用贝叶斯公式得到

P(\theta|S)=\frac{P(S|\theta)P(\theta)}{P(S)}

最大后验概率估计是要最大化

P(\theta|S)

这个后验概率，因此

\max P(\theta|S) = \max P(S|\theta)P(\theta)

上式与极大似然估计相比，只多了个

P(\theta)

，左边和极大似然估计一样，因此对左边取对数处理求平均似然最大

\max \frac{1}{N}\sum_{i=1}^{N} log P(s_i|\theta)+log P(\theta)

当模型是条件概率分布时，则

P(s_i;\theta)=P(y_i|x_i;\theta)

因此，

\max \frac{1}{N}\sum_{i=1}^{N} log P(y_i|x_i;\theta)+log P(\theta)

取负号，转换为

\min \frac{1}{N}\sum_{i=1}^{N} -log P(y_i|x_i;\theta)-log P(\theta)   -----(3)

当损失函数是对数损失函数(

L(Y,P(Y|X)) = -log P(Y|X)

)，模型是条件概率分布时,

结构风险最小化公式

\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f)

=\min \limits_{f\in F} \frac{1}{N} \sum_{i=1}^{N} -log P(y_i|x_i;\theta)+\lambda J(f)     -----(4)

比较公式(3)(4)，则当

\lambda J(f) = -log P(\theta)

两者等价，论断2得证。

(汉武提问，

\lambda

在(4)中没有出现，其实

\lambda

为超参，在模型中一般首先指定，如果为1/2 , 则

-1/2*2log P(\theta)

), 所以无论怎么取，都可以得到对应的使得等价。

极大似然估计&最大后验概率估计的更多相关文章

[白话解析] 深入浅出极大似然估计 & 极大后验概率估计
[白话解析] 深入浅出极大似然估计 & 极大后验概率估计 0x00 摘要本文在少用数学公式的情况下,尽量仅依靠感性直觉的思考来讲解极大似然估计 & 极大后验概率估计,并且从名著中找 ...
（转载）极大似然估计&最大后验概率估计
前言不知看过多少次极大似然估计与最大后验概率估计的区别,但还是傻傻分不清楚.或是当时道行太浅,或是当时积累不够. 这次重游机器学习之路,看到李航老师<统计学习方法>中第一章关于经验风险最 ...
极大似然估计、贝叶斯估计、EM算法
参考文献:http://blog.csdn.net/zouxy09/article/details/8537620 极大似然估计已知样本满足某种概率分布,但是其中具体的参数不清楚,极大似然估计估计就 ...
机器学习（二十五）— 极大似然估计（MLE）、贝叶斯估计、最大后验概率估计（MAP）区别
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum aposteriori estimation, 简称MAP)是很常用的两种参 ...
详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解
转载声明:本文为转载文章,发表于nebulaf91的csdn博客.欢迎转载,但请务必保留本信息,注明文章出处. 原文作者: nebulaf91 原文原始地址:http://blog.csdn.net/ ...
4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...
【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解
[机器学习基本理论]详解最大似然估计(MLE).最大后验概率估计(MAP),以及贝叶斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估计(Maximu ...
浅议极大似然估计（MLE）背后的思想原理
1. 概率思想与归纳思想 0x1:归纳推理思想所谓归纳推理思想,即是由某类事物的部分对象具有某些特征,推出该类事物的全部对象都具有这些特征的推理.抽象地来说,由个别事实概括出一般结论的推理称为归纳推 ...
MLE极大似然估计和EM最大期望算法
机器学习十大算法之一:EM算法.能评得上十大之一,让人听起来觉得挺NB的.什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题.神为什么是神,因为神能做很多人做不了的事.那么EM ...

随机推荐

2015年4月 15款免费jQuery插件
点这里 We have collected for you the 15 fresh, free and handy jQuery plugins that will help to speed up ...
C#中的可空类型
public class Person { public DateTime birth; public DateTime? death; string name; public TimeSpan Ag ...
mysql之触发器
触发器 MySQL语句在需要时被执行,存储过程也是如此.但是,如果你想要某条语句(或某些语句)在事件发生时自动执行,怎么办呢?例如:每当增加一个顾客到某个数据库表时,都检查其电话号码格式是否正 ...
android模拟器（genymotion）+appium+python 框架执行过程中问题解答
1.case运行过程中中文输入不进去? 答:注意事项 1)需要修改系统编码为utf-8,才能解决中文输入问题,case执行入口文件添加代码如下: import sys reload(sys) sys. ...
servlet学习笔记二
Servlet主要内容: 1)表单处理 2)乱码问题 3)页面跳转 4)生命周期一.表单处理 Servlet获取表单数据 request.getParameter():通过表单参数名获取参数值 re ...
负载均衡之Haproxy配置详解（及httpd配置）
下图描述了使用keepalived+Haproxy主从配置来达到能够针对前段流量进行负载均衡到多台后端web1.web2.web3.img1.img2.但是由于haproxy会存在单点故障问题,因此使 ...
C# 访问USB(HID)设备
原文:C# 访问USB(HID)设备二话不说,直接给代码,如果您真想做这方面的东西,还是稍微研究下,没有现成的好类用,就需要自己了解其原理 //引用空间 using System; using Sy ...
CentOS目录树详细解释
[sdm_download id=”292″ fancy=”1″] /boot 该目录默认下存放的是Linux的启动文件和内核. initramfs-* 系统启动时的模块供应的主要来源启动系统所需加 ...
lib-qqwry v1.0 发布 nodejs解析纯真IP库(qqwry.dat)
lib-qqwry是当初学习node时用来练手的一个模块,用来解析纯真IP库的现在发一个v1.0版本弥补我当时稚嫩的代码. 意外收获是,整理代码后发现,相比v0.x版本急速模式下的效率提升大概20 ...
Java I/O操作学习笔记
书上写的有点乱,所以就自己总结了一下,主要参考:http://www.cnblogs.com/qianbi/p/3378466.html 1.从文件读出和写入: import java.io.*; i ...

极大似然估计&最大后验概率估计

极大似然估计&最大后验概率估计的更多相关文章

随机推荐

热门专题