主讲人 网络上的尼采

(新浪微博: @Nietzsche_复杂网络机器学习

网络上的尼采(813394698) 9:11:56

开始吧,先不要发言了,先讲PRML第二章Probability Distributions。今天的内容比较多,还是边思考边打字,会比较慢,大家不要着急,上午讲不完下午会接着讲。
顾名思义,PRML第二章Probability Distributions的主要内容有:伯努利分布、 二项式 –beta共轭分布、多项式分布 -狄利克雷共轭分布 、高斯分布 、频率派和贝叶斯派的区别联系 、指数族等。
先看最简单的伯努利分布:

最简单的例子就是抛硬币,正反面的概率。
再看二项式分布:

抛N次有m次是正面或反面的概率,所以伯努利分布是二项式分布的特例。

向大家推荐一本好书,陈希孺的《数理统计简史》,对数理统计的一些基本东西的来龙去脉介绍的很详细,这样有助于理解。先818二项式分布,正态分布被发现前,二项式分布是大家研究的主要内容。
由二项式分布可以推出其他很多分布形式,比如泊松定理:

泊松分布是二项式分布的极限形式,这个估计大家都推导过。由二项式分布也能推出正态分布。
贝叶斯思想也是当时对二项式分布做估计产生的,后来沉寂了一百多年。

数据少时用最大似然方法估计参数会过拟合,而贝叶斯方法认为模型参数有一个先验分布,因此共轭分布在贝叶斯方法中很重要,现在看二项式分布的共轭分布beta分布:

结合上面的二项式分布的形式,不难看出beta分布和二项式分布的似然函数有着相同的形式,这样用beta分布做二项式分布参数的先验分布,乘似然函数以后得到的后验分布依然是beta分布。
a b是超参,大家可以看到beta分布的形式非常灵活:

假设抛硬币N次,l和m分别为正反面的记数,那么参数的后验分布便是:
不难看出,后验分布是先验和数据共同作用的结果。
这种数据矫正先验的形式可以通过序列的形式进行,非常适合在线学习。
单拿一步来说明问题:
可以看出,a的记数增加了1。

书上通过序列数据流的形式来矫正先验的描述,每次可以用一个观测数据也可以用small batches,很适合实时的学习:


回到上面的二项式-beta共轭,随着数据的增加,m,l趋于无穷大时,这时参数的后验分布就等于最大似然解。
有些先验分布可以证明,随着数据的增加方差越来越小,分布越来越陡,最后坍缩成狄拉克函数,这时贝叶斯方法和频率派方法是等价的。举个第三章的贝叶斯线性回归的例子,对于下图中间参数W的高斯先验分布,随着数据不断增加,参数后验分布的不确定性逐渐减少,朝一个点坍缩:

接着看多项式分布:把抛硬币换成了掷骰子

同样它的共轭分布狄利克雷分布也得和似然函数保持相同的形式。
狄利克雷分布:


后验形式:


大家依然能看到记数。

下面讲高斯分布,大家看高斯分布的形式:


多元高斯分布的形式:


高斯分布有着优良的性质 ,便于推导,很多时候会得到解析解。一元高斯分布是个钟形的曲线,大部分都集中在均值附近,朝两边的概率呈指数衰减,这个可以用契比雪夫不等式来说明,偏离均值超过3个标准差的概率就非常低了:


正态分布是如何发现的,在《数理统计简史》有详细的介绍,当时已经有很多人包括拉普拉斯在找随机误差的分布形式,都没有找到,高斯是出于一个假设找到的,也就是随机误差分布的最大似然解是算数平均值,只有正态分布这个函数满足这个要求。

然后高斯进一步将随机误差的正态分布假设和最小二乘联系到了一块,两者是等价的:


后来就是拉普拉斯迅速跟进,提出了中心极限定理,大量随机变量的和呈正态分布,这样解释了随机误差是正态分布的原因。中心极限定理的公式:

大家看PRML上的图,很形象的说明高斯分布是怎么生长出来的:

从[0,1]随机取N个变量,然后算它们的算术平均,随着N的增大,均值的分布逐渐呈现出高斯分布,可以比较直观的了解中心极限定理 。
接着看高斯分布的几何形式:
先给出样本到均值的马氏距离

把协方差矩阵的逆带入上式

会得到以协方差矩阵的特征值平方根为轴长的标准椭圆方程
其中
,也就是原来的坐标系经过平移和旋转,由协方差矩阵特征向量组成的矩阵U负责旋转坐标轴。
看下面张图就很明白了:


接着是条件高斯分布和边缘高斯分布,这两个分布由高斯分布组成,自身也是高斯分布。
条件高斯分布的推导过程略过,大家记住这个结论:
上面是条件高斯分布的均值和方差,以后的Gaussian Processes在最后预测时会用到均值。
另一个是线性高斯模型 p(y|x)均值是 x 的线性函数,协方差与 x 独立,也会经常用到。
接下来是关于高斯分布的贝叶斯方法,方差已知均值未知,先验用高斯分布;均值已知方差未知用Gamma分布;都不知道用Gaussian-Gamma distribution。这方面的推导略过,大家用到时翻书查看就行了:

接下来看Student t-distribution,Student是笔名,此人在数理统计史上是非常nb的人物。

上面是t分布的形式,具体如何发现的可以参看《数理统计简史》,大家看上面的积分形式,t分布其实是无限个均值一样,方差不同的高斯分布混合而成,高斯分布是它的特例,相比较高斯分布,t分布对outliers干扰的鲁棒性要强很多。

从这个图就可以看出,高斯分布对右边孤立点的干扰很敏感,t分布基本上没有变化:

接着讲混合高斯分布:看下图里的例子,单个高斯分布表达能力有限,无法捕捉到两个簇结构:

我们可以多个高斯分布的线性组合来逼近复杂的分布,并且对非指数族的分布也一样有效。
混合高斯分布的形式:
RIVERS(773600590) 11:01:09 
可不可以使用非线性的组合呢?
网络上的尼采(813394698) 11:01:48 
那就太复杂了
这个图是三个高斯分布混合逼近一个复杂分布的例子。

混合高斯模型里面有一个隐变量,也就是数据点属于哪个高斯分布。

这个就是隐变量的期望:

这个是我们的最大似然目标函数:

可以用EM算法,一边是隐变量,一边是模型的参数,迭代着来回倒腾,收敛到局部最优。混合高斯我在第九章详细讲了,感兴趣的可以看下原来的记录。
xunyu(2118773) 11:09:18 
隐变量和最大似然函数的联系在哪里
落英缤纷(348609341) 11:10:16 
不设置隐变量直接用ML不好解
网络上的尼采(813394698) 11:10:31 
下面讲指数族,很多分布包括我们上面提到的二项式分布、beta分布、多项式分布、狄利克雷分布、高斯分布都可以转换成这种指数族的形式:
其中η是参数,g(η)是归一化因子,u(x)是x的函数。

指数族的似然函数:

对lnp(X|η)关于η求导,令其等于0,会得到最大似然解的形式:

很显然,是充分统计量。充分统计量其实很好理解,拿最简单的二项式分布来说,抛硬币我们只需要记住正反面出现的次数就行,原来的数据就可以丢弃了。

DUDA是指数族专家,这是从他书上截的图,大家可以看下表中的指数族:

指数族的共轭先验形式:

后验形式:

PRML读书会讲稿PDF版本以及更多资源下载地址:http://vdisk.weibo.com/u/1841149974

PRML读书会第二章 Probability Distributions(贝塔-二项式、狄利克雷-多项式共轭、高斯分布、指数族等)的更多相关文章

  1. PRML读书会第九章 Mixture Models and EM(Kmeans,混合高斯模型,Expectation Maximization)

    主讲人 网络上的尼采 (新浪微博: @Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:10:56 今天的主要内容有k-means.混合高斯模型. EM算法.对于k-me ...

  2. PRML读书会第一章 Introduction(机器学习基本概念、学习理论、模型选择、维灾等)

    主讲人 常象宇 大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章.估计都是大神觉得第一章比较简单,所以就由我来吧.我的背景是统计与数学,稍懂 ...

  3. PRML读书笔记——2 Probability Distributions

    2.1. Binary Variables 1. Bernoulli distribution, p(x = 1|µ) = µ 2.Binomial distribution + 3.beta dis ...

  4. PRML读书会第三章 Linear Models for Regression(线性基函数模型、正则化方法、贝叶斯线性回归等)

    主讲人 planktonli planktonli(1027753147) 18:58:12  大家好,我负责给大家讲讲 PRML的第3讲 linear regression的内容,请大家多多指教,群 ...

  5. PRML Chapter 2. Probability Distributions

    PRML Chapter 2. Probability Distributions P68 conjugate priors In Bayesian probability theory, if th ...

  6. PRML读书会第十三章 Sequential Data(Hidden Markov Models,HMM)

    主讲人 张巍 (新浪微博: @张巍_ISCAS) 软件所-张巍<zh3f@qq.com> 19:01:27 我们开始吧,十三章是关于序列数据,现实中很多数据是有前后关系的,例如语音或者DN ...

  7. PRML读书会第七章 Sparse Kernel Machines(支持向量机, support vector machine ,KKT条件,RVM)

    主讲人 网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:59:22  大家好,今天一起交流下PRML第7章.第六章核函数里提到,有一类机器学习算法,不是对参数做点估计或求其分 ...

  8. PRML读书会第六章 Kernel Methods(核函数,线性回归的Dual Representations,高斯过程 ,Gaussian Processes)

    主讲人 网络上的尼采 (新浪微博:@Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:16:05 今天的主要内容:Kernel的基本知识,高斯过程.边思考边打字,有点慢, ...

  9. PRML读书会第五章 Neural Networks(神经网络、BP误差后向传播链式求导法则、正则化、卷积网络)

    主讲人 网神 (新浪微博:@豆角茄子麻酱凉面) 网神(66707180) 18:55:06 那我们开始了啊,前面第3,4章讲了回归和分类问题,他们应用的主要限制是维度灾难问题.今天的第5章神经网络的内 ...

随机推荐

  1. Servlet生命周期+工作原理

    Servlet生命周期+工作原理 1.Servlet的生命周期:     Servlet加载,加载,服务,销毁. 2.典型函数解释:     Init():这个函数是用来初始化Servlet对象的.在 ...

  2. jenkins maven svn 部署web项目到本地Tomcat

    查了N多网页,折腾了几个小时,终于部署成功,部署的过程比较坎坷,遇到各种问题,记录一下,不管大家是否会遇到的同样的问题,希望有所帮助: 常规操作: 1.下载jenkins,必须要做的一步,http:/ ...

  3. 微信支付.NET版开发总结(JS API),好多坑,适当精简

    前2天,做一个手机网页的微信支付的项目,费了好些周折,记录一下.接下来,按照开发步骤,细数一下,我遇到的那些坑. [坑1]官方邮件中下载的demo只有PHP版本,其他版本没有给链接.可能让人误以为只有 ...

  4. Python的逻辑运算符and小析

    近期突然对验证码的识别感兴趣了,然后就研究了一些图像识别和处理的资料,其中有一种图像处理是关于字体的细化和骨架提取的,但是这种算法没有现成的java代码实现,那些号称的java版代码多半都是效果很差或 ...

  5. ZooKeeper系列3:ZooKeeper命令、命令行工具及简单操作

    问题导读1.ZooKeeper包含哪些常用命令?2.通过什么命令可以列出服务器 watch 的详细信息?3.ZooKeeper包含哪些操作?4.ZooKeeper如何创建zookeeper? 常用命令 ...

  6. uva 120 stacks of flapjacks ——yhx

     Stacks of Flapjacks  Background Stacks and Queues are often considered the bread and butter of data ...

  7. selenium如何操作cookies实现免登录

    执行接口测试或者某些自动化测试时,为了避免每次访问接口都需要登录操作,可以用访问接口时,把cookies信息传过去. 思路是先登录一次页面,获取到cookies信息,把cookies信息保存到本地文件 ...

  8. 如何禁止 iPhone Safari video标签视频自动全屏?

    最近做一个移动端微信页面项目,在微信页面中有视频播放,但是需要禁止IOS的自动全屏播放(前提必须使用video标签).如: <video id="post" autoplay ...

  9. Codeforces Round #274 Div.1 C Riding in a Lift --DP

    题意:给定n个楼层,初始在a层,b层不可停留,每次选一个楼层x,当|x-now| < |x-b| 且 x != now 时可达(now表示当前位置),此时记录下x到序列中,走k步,最后问有多少种 ...

  10. HDU 2065 “红色病毒”问题 --指数型母函数

    这种有限制的类棋盘着色问题一般可以用指数型母函数来解决,设Hn表示这样的着色数,首先H0=1,则Hn等于四个字母的(A,B,C,D)的多重集合的n排列数,其中每个字母的重数是无穷,且要求A,C出现的次 ...