(转)最大似然估计&贝叶斯估计
最大似然估计&贝叶斯估计
与传统计量模型相对的统计方法,存在
1)参数的解释不同:经典估计:待估参数具有确定值它的估计量才是随机的。如果估计量是无偏的,该估计量的期望等于那个确定的参数。bayes待估参数服从某种分布的随机变量。
2)利用的信息不同:经估:只利用样本信息,bayes要求事先提供一个参数的先验分布,即人们对有关参数的主观认识,是非样本信息。在参数估计中它们与样本信息一起被利用。
3)对随机误差项的要求不同,经典估计除了最大似然法在参数估计中不要求知道随机误差项的具体分布形式在假设检验与区间估计时是需要的。bayes要知道随机误差项的具体分布形式。
4)选择参数估计量的准则不同:经典估计以ols最大似然为准则求解参数估计量。bayes要构造一个损失函数并以损失函数最小化为准则求得参数估计量.
最大似然/ 贝叶斯分类
与分布有关的统计分类方法主要有最大似然/ 贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法,它利用了遥感数据的统计特征,假定各类的分布函数为正态分布,在多变量空间中形成椭圆或椭球分布,也就是和中个方向上散布情况不同,按正态分布规律用最大似然判别规则进行判决,得到较高准确率的分类结果。否则,用平行六面体或最小距离分类效果会更好。
贝叶斯学习、最大似然度分类
【贝叶斯决策理论分析】 (1)如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合,那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。(如已知为正态分布了,根据标记好类别的样本来估计参数,常见的是极大似然率和贝叶斯参数估计方法) (2)如果我们不知道任何有关被分类类别概率分布的知识,已知已经标记类别的训练样本集合和判别式函数的形式,那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。(如已知判别式函数为线性或二次的,那么就要根据训练样本来估计判别式的参数,常见的是线性判别式和神经网络) (3)如果我们既不知道任何有关被分类类别概率分布的知识,也不知道判别式函数的形式,只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。(如首先要估计是什么分布,再估计参数。常见的是非参数估计) (4)只有没有标记类别的训练样本集合。这是经常发生的情形。我们需要对训练样本集合进行聚类,从而估计它们概率分布的参数。(这是无监督的学习) (5)如果我们已知被分类类别的概率分布,那么,我们不需要训练样本集合,利用贝叶斯决策理论就可以设计最优分类器。但是,在现实世界中从没有出现过这种情况。这里是贝叶斯决策理论常用的地方。 问题:假设我们将根据特征矢量x提供的证据来分类某个物体,那么我们进行分类的标准是什么?decide wj, if(p(wj|x)>p(wi|x))(i不等于j)应用贝叶斯展开后可以得到p(x|wj)p(wj)>p(x|wi)p(wi)即或然率p(x|wj)/p(x|wi)>p(wi)/p(wj),决策规则就是似然率测试规则。 结论:对于任何给定问题,可以通过似然率测试决策规则得到最小的错误概率。这个错误概率称为贝叶斯错误率,且是所有分类器中可以得到的最好结果。最小化错误概率的决策规则就是最大化后验概率判据。
【贝叶斯决策判据】
贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小,又考虑了因误判造成的损失大小,判别能力强。贝叶斯方法更适用于下列场合: (1) 样本(子样)的数量(容量)不充分大,因而大子样统计理论不适宜的场合。 (2) 试验具有继承性,反映在统计学上就是要具有在试验之前已有先验信息的场合。用这种方法进行分类时要求两点: 第一,要决策分类的参考总体的类别数是一定的。例如两类参考总体(正常状态Dl和异常状态D2),或L类参考总体D1,D2,…,DL(如良好、满意、可以、不满意、不允许、……)。 第二,各类参考总体的概率分布是已知的,即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x/Di)是已知的。显然,0≤P(Di)≤1,(i=l,2,…,L),∑P(Di)=1。 对于两类故障诊断问题,就相当于在识别前已知正常状态D1的概率户(D1)和异常状态0:的概率P(D2),它们是由先验知识确定的状态先验概率。如果不做进一步的仔细观测,仅依靠先验概率去作决策,那么就应给出下列的决策规则:若P(D1)>P(D2),则做出状态属于D1类的决策;反之,则做出状态属于D2类的决策。例如,某设备在365天中,有故障是少见的,无故障是经常的,有故障的概率远小于无故障的概率。因此,若无特B,j明显的异常状况,就应判断为无故障。显然,这样做对某一实际的待检状态根本达不到诊断的目的,这是由于只利用先验概率提供的分类信息太少了。为此,我们还要对系统状态进行状态检测,分析所观测到的信息。
最大似然估计&贝叶斯估计
概率空间的定义为(Omega, F, P)。在概率图模型中,一个问题是从已知的抽样中估计概率测度P。通常,有两种估计的方法:一是最大似然估计,一是贝叶斯估计。比如,投硬币的问题,30上,20下,就估计上的概率为3/5,这样的估计可以使似然度最大。而贝叶斯主义者认为还应该有更多的先验知识,比如我们早就知道这样的概率取值为1/2的概率相对最大,加入这样的知识后运用贝叶斯公式估计出来的概率就与最大似然法的结果不同。可以想像当先验知识可靠的时候,这样的估计会更准确的。 形式化一点,投硬币的概率空间为({正, 反}, {{正}, {反}},{(正, p), (反, 1-p)})。最大似然直接在这样的空间上估计p。而贝叶斯主义者将所有p决定的测度P看成是另一个Omega*,即概率本身是另一个概率空间中的一个采样。这另一个空间有自己的另一套测度P*。比如投币问题中Omega*是所有可能拿到的硬币,显然P*会告诉我们不同的硬币会有不同的p。如果这样的P*能够很好的得到,那么这样估计的概率会更有说服力。 那么我想做一些引申,既然一个正反面的概率测度P可以是一个更大的空间中依P*的采样,那么P*本身为什么不是从另一个更大空间中采样出来的呢。比如考虑温度、湿度、表面粗糙度、重力加速度等条件,会得到另一个概率空间Omega**,不同的环境条件决定了各个硬币正面概率的变化,故是这样的空间采样了P*。如果我们同样能够清晰描述P**,这显然也是合理且有说服力的。
最大似然的模型,可以叫做零阶模型(名字是我自己杜撰的),而贝叶斯方法的模型可以叫做一阶模型,用同样的方法可以产生二阶、三阶以及更高阶的模型。前提是我们能够清晰的描述这些概率分布是如何从另一个概率分布中采样出来的。 一个问题是,这样的过程可以无限进行吗,任何实际的概率空间都可以这样吗,这样的过程都合理且有意义吗。 我这里想说的是,至少有一种实际的测度,不需要再做这样的泛化了。这样的测度就是“宇宙的本质规律”,它赋予任何实在的事件以概率,而它不再是根据某个P*采样出来的了。解释有两点:第一,这些规律有唯一的取值,如果某个规律每次测量会变化,那么必有更高的不变的规律解释这样的变化,从而前者不是“本质规律”,后者才是;第二,如果非要假想有另一种赋值的宇宙规律,而由于我们只可能知道P下的一切,对这样的P*我们不可能有任何认识,所以这样的泛化是无意义的。 形而上学会讨论可能宇宙,会讨论或然宇宙中是否有必然存在物,会讨论宇宙的常数是被如何精巧的设定以至于很幸运地产生了现在的宇宙的样子。我想得出的结论是,除了现在的宇宙外我们一无所知,连宇宙之外的这个规律P*都不知道哪怕一点点,又如何谈论它和他所测量的空间Omega*的性质呢。在这个范围内的任何设定都不会与现实宇宙中的任何现象概率相关,在概率图中他们被我们“宇宙的本质规律”这个节点阻断了。可能有可能宇宙,但我们的宇宙与这个宇宙无关。
(转)最大似然估计&贝叶斯估计的更多相关文章
- 最大似然估计(Maximum Likelihood,ML)
先不要想其他的,首先要在大脑里形成概念! 最大似然估计是什么意思?呵呵,完全不懂字面意思,似然是个啥啊?其实似然是likelihood的文言翻译,就是可能性的意思,所以Maximum Likeliho ...
- 最大似然估计(MLE)和最大后验概率(MAP)
最大似然估计: 最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”.简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知 ...
- 最大似然估计 (Maximum Likelihood Estimation), 交叉熵 (Cross Entropy) 与深度神经网络
最近在看深度学习的"花书" (也就是Ian Goodfellow那本了),第五章机器学习基础部分的解释很精华,对比PRML少了很多复杂的推理,比较适合闲暇的时候翻开看看.今天准备写 ...
- 机器学习的MLE和MAP:最大似然估计和最大后验估计
https://zhuanlan.zhihu.com/p/32480810 TLDR (or the take away) 频率学派 - Frequentist - Maximum Likelihoo ...
- 最大似然估计和最大后验概率MAP
最大似然估计是一种奇妙的东西,我觉得发明这种估计的人特别才华.如果是我,觉得很难凭空想到这样做. 极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点.频率派认为,参数是客观存在的,只是未知而矣. ...
- 最大似然估计(Maximum likelihood estimation)
最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:"模型已定,参数未知".简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差 ...
- 机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解
目录 机器学习基础 1. 概率和统计 2. 先验概率(由历史求因) 3. 后验概率(知果求因) 4. 似然函数(由因求果) 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率( ...
- 【模式识别与机器学习】——最大似然估计 (MLE) 最大后验概率(MAP)和最小二乘法
1) 极/最大似然估计 MLE 给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参,即“模型已定,参数未知”.例如,我们知道这个分布是正态分布,但是不知道均值和 ...
- 萌新笔记——Cardinality Estimation算法学习(二)(Linear Counting算法、最大似然估计(MLE))
在上篇,我了解了基数的基本概念,现在进入Linear Counting算法的学习. 理解颇浅,还请大神指点! http://blog.codinglabs.org/articles/algorithm ...
随机推荐
- e.target 和 e.srcElement 的使用问题
ie 下的event.srcElement从字面上可以看出来有以下关键字:事件.源(它的意思就是:当前事件的源), 我们可以调用他的各种属性就像:document.getElementById(&qu ...
- ASP.NET MVC 使用TryUpdateModel 更新的技巧
有使用 ASP.NET MVC 的朋友應該會對於 TryUpdateModel 有一定的認知,他不但可以利用 Metadata 來做欄位的驗證確保資料的正確性,也可以指定更新的條件以及不更新的條件來達 ...
- python_基础学习_01_按行读取文件的最优方法
python 按行读取文件 ,网上搜集有N种方法,效率有区别,先mark最优答案,下次补充测试数据 with open('filename') as file: for line in file: d ...
- lua学习笔记10:lua简单的命令行
前面反复使用的命令行,好学喜欢命令行: 一 格公式 lua [options][script][args] 两 详细命令 -e 直接命令传递一个lua -l 加载文件 -i 进入交互模式 比例如.端子 ...
- PHP+百度地图API+JAVASCRIPT实现GPS坐标与百度坐标转换的实例
原文:PHP+百度地图API+JAVASCRIPT实现GPS坐标与百度坐标转换的实例 <!--小幅的坐标转换点位程序--> <!DOCTYPE html> <html&g ...
- (转)javabean操作文件正确,但是Jsp调用javabean时文件路径出错问题解决之JavaBean访问本地文件实现路径无关实现方法
在JSP中,页面链接是使用web路径的,但如果JavaBean要访问本地文件读取配置信息的话,是需要文件的本地路径的.如果你在写 Bean的时候直接将本地路径写进去,那网站的路径就不能变化,丧 ...
- linux中如何用root去修改其他用户的密码
linux中如何用root去修改其他用户的密码 昨天linux实验课,我有很多自己想摸索的东西.今天周五,本是下午一二节是编译的实验,可强烈的欲望让我今早就来实验室了,摸索吧,碰到了这个问题.... ...
- .NET:从 Mono、.NET Core 说起
魅力 .NET:从 Mono..NET Core 说起 前段时间,被问了这样一个问题:.NET 应用程序是怎么运行的? 当时大概愣了好久,好像也没说出个所以然,得到的回复是:这是 .NET 程序员最基 ...
- [DevExpress]利用LookUpEdit实现类似自动提示效果
原文:[DevExpress]利用LookUpEdit实现类似自动提示效果 关键代码: public static void BindWithAutoCompletion(this LookUpEdi ...
- SQLCMD的介绍
原文:SQLCMD的介绍 sqlcmd -S SERVERNAME -U USERNAME -P PASSWORD -i filename.sql 下面的内容是详细介绍sqlcmd的,有兴趣的朋友可以 ...