---恢复内容开始---

=====================================================

A random variable's possible values might represent the possible outcomes of a yet-to-be-performed experiment,

                          or the possible outcomes of a past experiment whose already-existing value is uncertain

                                  (for example, due to imprecise measurements or quantum uncertainty).

They may also conceptually represent either the results of an "objectively" random process (such as rolling a die),

                            or the "subjective" randomness that results from incomplete knowledge of a quantity.

The meaning of the probabilities assigned to the potential values of a random variable is not part of probability theory itself,

                             but is instead related to philosophical arguments over the interpretation of probability.

The mathematics works the same regardless of the particular interpretation in use !!!

简单地说,频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。举例而言,想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

然而,贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来,并不是「事件本身具有某种客观的随机性」,而是「观察者不知道事件的结果」而已,只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下,观察者又试图通过已经观察到的「证据」来推断这一事件的结果,因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此,在贝叶斯框架下,同一件事情对于知情者而言就是「确定事件」,对于不知情者而言就是「随机事件」,随机性并不源于事件本身是否发生,而只是描述观察者对该事件的知识状态。

总的来说,贝叶斯概率论为人的知识(knowledge)建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程,贝叶斯概率论假设观察者对某事件处于某个知识状态中(例如:小明先验地相信一枚硬币是均匀的,可能是出于认为均匀硬币最常见这种信念),之后观察者开始新的观测或实验(小明开始不断地抛硬币,发现抛了100次后,居然只有20次是正面朝上)。经过中间的独立重复试验,观察者获得了一些新的观测结果,这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念(小明开始怀疑这枚硬币究竟是不是均匀的,甚至开始断定硬币并不均匀)。在这一过程中,观察者无法用简单的逻辑来推断,因为观察者并没有完全的信息作为证据,因此只能采用似真推断(plausible reasoning),对于各种各样可能的结果赋予一个「合理性」(plausibility)。例子中,小明原先认为硬币的分布是均匀的,于是根据小明原有的信念,这个论断合理性非常高;在观察到100次抛掷中只有20次正面朝上后,小明开始怀疑硬币的均匀性,此时小明很可能认为「硬币不均匀」这一推断的合理性很高,支持的证据就是他刚刚实验的观测结果。

上面的例子用贝叶斯概率论的语言来描述,就是观察者持有某个前置信念(prior
belief),通过观测获得统计证据(evidence),通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」,从而得出后置信念(posterior belief)来最好的表征观测后的知识状态(state of knowledge)。这里,贝叶斯概率推断所试图解决的核心问题就是如何构建一个满足一定条件的逻辑体系赋予特定论断一个实数所表征的论断合理性的度量(measure of plausibility),从而可以允许观测者在不完全信息的状态下进行推断。这里,观察者对某变量的信念或知识状态就是频率学派所说的「概率分布」,也就是说,观察者的知识状态就是对被观察变量取各种值所赋予的「合理性」的分布。

从这个意义上来讲,贝叶斯概率论试图构建的是知识状态的表征,而不是客观世界的表征。因此,在机器学习、统计推断中,许多情况下贝叶斯概率推断更能解决观察者推断的问题,而绕开了关于事件本体的讨论,因为没有讨论本体的必要性。

参考:《概率论沉思录》

贝叶斯概率仍然只是一个实数,而概率分布是推断者根据自己的知识状态赋予参数在某集合内取各个值的可信度,因此概率分布表征了推断者的知识状态。

=====================================================

第一名答案的例子其实并不对。贝叶斯学派和频率学派的最大区别并不在于信息的利用和整合上。虽然贝叶斯方法可以用先验分布来引入以往的信息,但是频率学派也有方法来整合各种domain knowledge,比如在最优化likelihood的时候加入各种constrain。以麻将为例,频率学派的人同样可以把每个人的信息加入的模型中进而找出最有策略,这也是“统计决策”(Statistical decision theory)领域里早期大牛们的做法(虽然他们的定理证明了所有可能的决策选择中最佳的决策就是贝叶斯后验的Mode)。从这个意义上来说两者其实差别并不大。

频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。所谓参数空间,就是你关心的那个参数可能的取值范围。频率学派(其实就是当年的Fisher)并不关心参数空间的所有细节,他们相信数据都是在这个空间里的”某个“参数值下产生的(虽然你不知道那个值是啥),所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。于是就有了最大似然(maximum likelihood)以及置信区间(confidence interval)这样的东西,你从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。而贝叶斯学派恰恰相反,他们关心参数空间里的每一个值,因为他们觉得我们又没有上帝视角,怎么可能知道哪个值是真的呢?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。于是他们才会引入先验分布(prior distribution)和后验分布(posterior distribution)这样的概念来设法找出参数空间上的每个值的概率。最好诠释这种差别的例子就是想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。

如果从概率的角度看,贝叶斯学派的想法其实更为自然,这也是为什么贝叶斯学派的产生远早于频率学派(去年是贝叶斯250周年)。但是贝叶斯方法本身有很多问题,比如当先验选的不好或者模型不好的时候你后验分布的具体形式可能都写不出来,跟别说做统计推断了。在当年电子计算机还没发展出来的时候,对这些情况做分析几乎是不可能的,这也就大大限制了贝叶斯方法的发展。而频率学派主要使用最优化的方法,在很多时候处理起来要方便很多。所以在频率学派产生后就快速地占领了整个统计领域。直到上世纪90年代依靠电子计算机的迅速发展,以及抽样算法的进步(Metropolis-hastings, Gibbs sampling)使得对于任何模型任何先验分布都可以有效地求出后验分布,贝叶斯学派才重新回到人们的视线当中。就现在而言,贝叶斯学派日益受到重视当然是有诸多原因的,所以这并不意味这频率学派就不好或者不对。两个学派除了在参数空间的认知上有区别以外,方法论上都是互相借鉴也可以相互转化的。当代学术领域批评的最多的仅仅是频率学派里的Hypothesis testing的问题,尤其是对于p-value的误用造成了很多问题,最近有一个心理学杂志BASP也已经禁用了Hypothesis testing (Psychology journal bans P values : Nature News & Comment)。 不过这只是Hypothesis testing这种研究方法本身的问题(testing是Fisher自己脑补出来的方法,confidence interval是Neyman提出来相对应的方法)。对应于Hypothesis testing,贝叶斯学派有自己的一套方法称为 Bayes factor。虽然Bayes factor本身比p-value要合理很多(个人见解),但是我并不觉得单靠Bayes factor的方法就可以有效解决当下p-value滥用导致的问题,因为Bayes factor同样可以导致Multiple comparisons problem

作者:Xiangyu Wang
链接:https://www.zhihu.com/question/20587681/answer/41436978
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

---恢复内容结束---

Random/Stochastic的更多相关文章

  1. Deep learning:四十七(Stochastic Pooling简单理解)

    CNN中卷积完后有个步骤叫pooling, 在ICLR2013上,作者Zeiler提出了另一种pooling手段(最常见的就是mean-pooling和max-pooling),叫stochastic ...

  2. FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MINI-BATCH LEARNING. WHAT IS THE DIFFERENCE?

    FITTING A MODEL VIA CLOSED-FORM EQUATIONS VS. GRADIENT DESCENT VS STOCHASTIC GRADIENT DESCENT VS MIN ...

  3. 壁虎书7 Ensemble Learning and Random Forests

    if you aggregate the predictions of a group of predictors,you will often get better predictions than ...

  4. Random Processes

    对于信号处理来说,有一类信号是非常重要的,这类信号就是随机信号(random signal),也被称为随机过程(random processes/stochastic processes).在各种书籍 ...

  5. 醉汉随机行走/随机漫步问题(Random Walk Randomized Algorithm Python)

    世界上有些问题看似是随机的(stochastic),没有规律可循,但很可能是人类还未发现和掌握这类事件的规律,所以说它们是随机发生的. 随机漫步(Random  Walk)是一种解决随机问题的方法,它 ...

  6. 几种梯度下降方法对比(Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent)

    https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...

  7. 随机场(Random field)

    一.随机场定义 http://zh.wikipedia.org/zh-cn/随机场 随机场(Random field)定义如下: 在概率论中, 由样本空间Ω = {0, 1, …, G − 1}n取样 ...

  8. Generating Gaussian Random Numbers(转)

    Generating Gaussian Random Numbers http://www.taygeta.com/random/gaussian.html This note is about th ...

  9. stochastic matrix

    w Stochastic matrix - Wikipedia  https://en.wikipedia.org/wiki/Stochastic_matrix Suppose you have a ...

随机推荐

  1. 《Google软件测试之道》- Google软件测试介绍

    <Google软件测试之道>- Google软件测试介绍 2015-05-21 目录 1 质量与测试  2 角色  3 组织结构  4 爬.走.跑  5 测试类型  相关链接 与Micro ...

  2. GetLastError 错误码大全(转载)

    转载自:GetLastError GetLastError GetLastError返回的值通过在api函数中调用SetLastError或SetLastErrorEx设置.函数   并无必要设置上一 ...

  3. Redis-stat is not found

    $ruby -v ruby 2.1.3p242 (2014-09-19 revision 47630) [x86_64-linux] $gem -v 2.2.2 $which ruby /usr/lo ...

  4. 在 Java 8 中获取日期

    前言 前面一篇文章写了<SimpleDateFormat 如何安全的使用?>, 里面介绍了 SimpleDateFormat 如何处理日期/时间,以及如何保证线程安全,及其介绍了在 Jav ...

  5. php ut8声明

    header("Content-type: text/html; charset=utf-8");

  6. Spring Boot自动配置类

    http://docs.spring.io/spring-boot/docs/current/api/overview-summary.html http://docs.spring.io/sprin ...

  7. MyBatis Generator 学习

    根据数据库,自动生成 VO.XML或者DAO的工具. 同大多数工具(或者框架)一样,需要加载一个配置文件,然后根据配置文件中的内容连接数据库,访问其中的表内容,最后生成实体类以及MAPPER. 占位用 ...

  8. 【cf489】D. Unbearable Controversy of Being(暴力)

    http://codeforces.com/contest/489/problem/D 很显然,我们只需要找对于每个点能到达的深度为3的点的路径的数量,那么对于一个深度为3的点,如果有a种方式到达,那 ...

  9. 【BZOJ】1047: [HAOI2007]理想的正方形(单调队列/~二维rmq+树状数组套树状数组)

    http://www.lydsy.com/JudgeOnline/problem.php?id=1047 树状数组套树状数组真心没用QAQ....首先它不能修改..而不修改的可以用单调队列做掉,而且更 ...

  10. 【BZOJ】1699: [Usaco2007 Jan]Balanced Lineup排队(rmq/树状数组)

    http://www.lydsy.com/JudgeOnline/problem.php?id=1699 我是用树状数组做的..rmq的st的话我就不敲了.. #include <cstdio& ...