听同事讲 Bayesian statistics: Part 2

听同事讲 Bayesian statistics: Part 2 - Bayesian inference

摘要：每天坐地铁上班是一件很辛苦的事，需要早起不说，如果早上开会又赶上地铁晚点，更是让人火烧眉毛。在城市里工作的人，很多是需要搭乘地铁上下班的，也包括同事M。

有一次M早上来得比较晚，进办公室以后就开始抱怨地铁又晚点了，而且同一周不只发生了一次。我说，作为 statistician，你就不能 predict 一下地铁会不会晚点吗？她说，"This is a very tricky problem. There are so many unknown factors." “好吧，那算一下地铁晚点的概率总可以吧？” "Great! Let's do it now!” 说完M就拿起笔开始在白板上写起公式来，当然用的是 Bayesian 的方法。

通常拿到一个问题后，第一步要做的，就是要简化这个问题。M做的简化是：假设每天地铁迟到的概率是一样的，记为 t。当然，这个假设有不合理的地方，比如周一、周二早上乘地铁的人比较多，而周五不少人 work from home 所以乘地铁的人相对较少，这样导致地铁在每周不同的天里迟到的概率可能不同。但任何假设都有不完善的地方，如果乘客人数不是主导因素的话，那么我们就可以做这样的近似。问题简化后，每天地铁是否迟到就是一个 Bernoulli 分布，N 天中地铁迟到的次数 n 则为一个 binomial 分布。

以M过去两周的经验来说，总共10天里，地铁迟到了3次。那么地铁迟到的概率 t 是多少呢？

上一期中我们提到了 frequentist 和 Bayesian 之间的区别。其中最主要的一点是，frequentist 认为参数是固定的，而 Bayesian 认为参数和其它随机变量没有区别，它们也是随机变量，它们的 distribution 就是我们对其值 belief 的 distribution。在我们这个问题里，t 就是参数。

首先大致地讲一下 frequentist 的做法。Frequentist 求解参数，一般用 maximum likelihood 方法。参数的 likelihood 也就是 data 的 probability。假设 N 天里，地铁迟到了 n 次，那么 likelihood 为，

这个公式不是很讨好，我们来把它变换一下。我们知道，log 函数不会改变原函数的大小关系 (monotonic)，所以，maximum likelihood 等价于 maximum log-likelihood。公式变成了，

C为常数，不取决于 t 的值。我们可以很容易地求得当 t ＝ n / N 时，上面地 log-likelihood 取得最大值。好的，frequentist 的结果为 n / N ＝ 3 / 10 ＝ 0.3，即地铁迟到的概率为30%。

Bayesian 方法怎么去做呢？还记得上一期我们提到的 Bayesian 理念吧。我们需要给 t 一个 prior distribution。我们知道，t 作为概率是介于0到1之间的，它最常用的 prior 是 beta distribution。可能很多学友不是特别熟悉 beta distribution，但对于 statistician 尤其是 Bayesian statistician 来说，它是最基本的一种 distribution。我们在这儿不讨论 beta distribution 的细节。需要大体了解一下，它有两个参数，pdf 的图形如下，

它的表达式为，

如果我们认为 t 是从0到1均匀分布的，我们可以用 uniform 作为它的 prior，也就是 t ~ Beta(1, 1) = uniform。这个 prior 没有融入任何主观的猜测，所以这样的 prior 也叫做 uninformative prior。其实，即便是这样的 prior，它也提供了一定的信息，比如 t 的值不会小于0或者大于1 。所以，uninformative prior 名字有些歧义，它实际上是 less informative prior。

知道了参数的 prior distribution 和 likelihood，那么 posterior distribution 是不是很容易求得呢？答案是否定的。只有一些特定的 distribution (比如 Gaussian distribution) 才可以写出它的解析式。即便写出它的解析式，很多情况下 posterior 的一些 statistics 是很难求得的。这是就需要请出强大的 MCMC (Markov chain Monte Carlo)，这个后面一定会讲到。

好的，我们计算一下，给了数据 D 后，参数 t 的 posterior distribution 为，

对于很多其他形式的 posterior 来说，位于分母的积分 P(D) 并不容易计算。幸运的是，这个积分的值并不取决于参数的值，而分子才是决定参数的重要因素。从这个角度来说，分母的作用只是 normalization 而已，对决定参数分布作用不大。

还有一个有趣的现象是，算得的 posterior 和 prior 形式上是一样的。这也是当 likelihood 为 binomial 时，我们选择 beta distribution 作为 prior 的好处。对于不同的 likelihood，选择一些特定的 prior 可以使得 posterior 与 prior 形式一致，给计算带来方便。这样的 prior，称之为 conjugate prior。

我们最后求得 t 的 posterior 为 Beta(n+1, N－n+1)，即 Beta(4, 8)，它的 mode 是 0.3，而 mean 是 1 / 3。

假如说我们只想用一个值而不是 distribution 来表示参数，很多情况下我们会选择 mode，也就是让 posterior 最大的那个参数值。这个方法也叫做 maximum a posteriori (MAP)。如果 prior 是 uniform 的话，它跟 frequentist 的 maximum likelihood 得到的结果一样。当然，maximum a posteriori 是一个过于简单的方法，用一个值来代替整个 distribution 显然是不准确或不完备的。我们后面会讲到 Bayesian 是怎样利用 posterior 来做 prediction 的。

听同事讲 Bayesian statistics: Part 2 - Bayesian inference的更多相关文章

听同事讲 Bayesian statistics: Part 1 - Bayesian vs. Frequentist
听同事讲 Bayesian statistics: Part 1 - Bayesian vs. Frequentist 摘要:某一天与同事下班一同做地铁,刚到地铁站,同事遇到一熟人正从地铁站出来. ...
Stanford机器学习笔记-3.Bayesian statistics and Regularization
3. Bayesian statistics and Regularization Content 3. Bayesian statistics and Regularization. 3.1 Und ...
BAYESIAN STATISTICS AND CLINICAL TRIAL CONCLUSIONS: WHY THE OPTIMSE STUDY SHOULD BE CONSIDERED POSITIVE（转）
Statistical approaches to randomised controlled trial analysis The statistical approach used in the ...
贝叶斯统计（Bayesian statistics） vs 频率统计（Frequentist statistics）：marginal likelihood（边缘似然）
1. Bayesian statistics 一组独立同分布的数据集 X=(x1,-,xn)(xi∼p(xi|θ)),参数 θ 同时也是被另外分布定义的随机变量 θ∼p(θ|α),此时: p(X|α) ...
Bayesian Statistics for Genetics | 贝叶斯与遗传学
Common sense reduced to computation - Pierre-Simon, marquis de Laplace (1749–1827) Inventor of Bayes ...
Bayesian statistics
文件夹 1Bayesian model selection贝叶斯模型选择 1奥卡姆剃刀Occams razor原理 2Computing the marginal likelihood evidenc ...
【死磕JVM】给同事讲了一遍GC后，他要去面试，年轻人，就是容易冲动！
前言在一个风和日丽的中午,和同事小勇一起走在公司楼下的小公园里面,看到很多的小姐姐,心想什么时候能够和这些小姐姐一起讨论人生呀,美滋滋,嘿嘿嘿. 收起你的哈喇子好不好,小勇总是在这个时候发出声音,挺 ...
什么是WebSocket （经常听别人讲感觉很高大上其实不然）
WebSocket 协议在2008年诞生,2011年成为国际标准.现在所有浏览器都已经支持了.WebSocket 的最大特点就是,服务器可以主动向客户端推送信息,客户端也可以主动向服务器发送信息,是真 ...
算法很美，听我讲完这些Java经典算法包你爱上她
大家好,我是小羽. 对于编程来说的话,只有掌握了算法才是了解了编程的灵魂,算法对于新手来说的话,属实有点难度,但是以后想有更好的发展,得到更好的进阶的话,对算法进行系统的学习是重中之重的. 对于 Ja ...

随机推荐

PPTP、L2TP、IPSec和SSLVPN的区别
VPN (虚拟专用网)发展至今已经不在是一个单纯的经过加密的访问隧道了,它已经融合了访问控制.传输管理.加密.路由选择.可用性管理等多种功能,并在全球的信息安全体系中发挥着重要的作用.也在网络上,有关 ...
android开发工具类之获得WIFI IP地址或者手机网络IP
有的时候我们需要获得WIFI的IP地址获得手机网络的IP地址,这是一个工具类,专门解决这个问题,这里需要两个权限: <uses-permission android:name="and ...
PowerDesigner使用详解
PowerDesign高级应用编写相关的VBS脚本在PowerDesign里自定义一些命令与操作等,具体的可以参考C:\Program Files\Sybase\PowerDesigner 9\VB ...
深入理解计算机系统第二版习题解答CSAPP 2.9
基于三元色R(红)G(绿)B(蓝)关闭(0)和打开(1),能够创建8种不同的颜色,如下: R G B 颜色 R G B 颜色 0 0 0 黑色 1 0 0 红色 0 0 1 蓝色 1 0 1 红紫色 ...
Modify the average program to promote for intergers repeatedly.stop when a nagetive number is entere
#include<stdio.h> int main(void) { intcount ,sum,aninterger; printf("enterthe interger an ...
总结：调用startActivityForResult，onActivityResult无响应的问题
人人都知道,可以通过使用 startActivityForResult() 和 onActivityResult() 方法来传递或接收参数. 但你是否遭遇过onActivityResult()不执行或 ...
xml、xhtml、html、dhtml的区别
1.XML 可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言. 可扩展标记语言可以对文档和数据进行结构化处理,从而能够在部门.客户和供应商之间进行交换,实现动态内 ...
MVC中的URL路由（一）
URL路由系统通过对请求地址进行解析从而得到以目标Controller名称为核心的路由数据.Url路由系统最初是为了实现请求url与物理文件路径分离而建立的,MVC的Url Route是将Url地址与 ...
ACM——大数相加
大数加法时间限制(普通/Java):1000MS/3000MS 运行内存限制:65536KByte 总提交:2085 测试通过:543 描述求两个非负整数( ...
轻松应对C10k问题
http://blog.csdn.net/u011011917/article/details/17203539 传统的.教科书里的I/O复用等待函数select/poll在处理数以万计的客户端连接时 ...

听同事讲 Bayesian statistics: Part 2 - Bayesian inference

听同事讲 Bayesian statistics: Part 2 - Bayesian inference

听同事讲 Bayesian statistics: Part 2 - Bayesian inference的更多相关文章

随机推荐

热门专题