mahout系列----Dirichlet 分布

Dirichlet分布可以看做是分布之上的分布。如何理解这句话，我们可以先举个例子：假设我们有一个骰子，其有六面，分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验，得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次，如果用每一面出现的次数与试验总数的比值估计这个面出现的概率，则我们得到六面出现的概率，分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在，我们还不满足，我们想要做10000次试验，每次试验中我们都投掷骰子10000次。我们想知道，出现这样的情况使得我们认为，骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少（说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了）。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布。

首先用上面这一段来点直观印象，然后列一些资料：

维基里面对于狄利克雷分布貌似介绍的挺复杂，不够基础。我找到了一个CMU的PPT：Dirichlet Distribution, Dirichlet Process and Dirichlet Process Mixture，找到一篇华盛顿大学的《Introduction to the Dirichlet Distribution and Related Processes》介绍。

发现CMU那个ppt里面讲到，Beta is the conjugate prior of Binomial，有一种原来如此的感觉。嗯，原来贝塔分布是二项分布的共轭先验分布，那么狄利克雷分布就是多项分布的共轭先验分布。所以要看狄利克雷分布，就要先了解多项分布，然后呢，想要了解狄利克雷之于多元的关系，就要先看贝塔分布和伯努利分布的关系。所以，二项分布、beta分布、以及共轭这三点是理解狄利克雷分布的关键基础知识，这个基础知识记录在这里(PRML2.1整小章介绍了这个)。

下面正式进入狄利克雷分布介绍，首先说一下这个多项分布的参数μ。在伯努利分布里，参数μ就是抛硬币取某一面的概率，因为伯努利分布的状态空间只有{0,1}。但是在多项分布里，因为状态空间有K个取值，因此μ变成了向量。多项分布的likelihood函数形式是，因此就像选择伯努利分布的共轭先验贝塔函数时那样，狄利克雷分布的函数形式应该如下：

式2.37

上式中，，是狄利克雷分布的参数。最后把2.37归一化成为真正的狄利克雷分布：

其中。这个函数跟贝塔分布有点像（取K=2时就是Beta分布）。跟多项分布也有点像。就像Beta分布那样，狄利克雷分布就是它所对应的后验多项分布的参数的分布，只不过μ是一个向量，下图是当时，即只有三个值时狄利克雷概率密度函数的例子。其中中间那个图的三角形表示一个平放的Simplex，三角形三个顶点分别表示，和，因此三角形中间部分的任意一个点就是的一个取值，纵轴就是这个的Simplex上的概率密度值(PDF)。

对于参数的估计时，可知后验=似然*先验的函数形式如下：

从这个形式可以看出，后验也是狄利克雷分布。类似于贝塔分布归一化后验的方法，我们把这个后验归一化一下，得到：

mahout系列----Dirichlet 分布的更多相关文章

伯努利分布、二项分布、Beta分布、多项分布和Dirichlet分布与他们之间的关系，以及在LDA中的应用
在看LDA的时候,遇到的数学公式分布有些多,因此在这里总结一下思路. 一.伯努利试验.伯努利过程与伯努利分布先说一下什么是伯努利试验: 维基百科伯努利试验中: 伯努利试验(Bernoulli tri ...
关于Beta分布、二项分布与Dirichlet分布、多项分布的关系
在机器学习领域中,概率模型是一个常用的利器.用它来对问题进行建模,有几点好处:1)当给定参数分布的假设空间后,可以通过很严格的数学推导,得到模型的似然分布,这样模型可以有很好的概率解释:2)可以利用现 ...
Beta分布和Dirichlet分布
在<Gamma函数是如何被发现的?>里证明了\begin{align*} B(m, n) = \int_0^1 x^{m-1} (1-x)^{n-1} \text{d} x = \frac ...
LDA-math-认识Beta/Dirichlet分布
http://cos.name/2013/01/lda-math-beta-dirichlet/#more-6953 2. 认识Beta/Dirichlet分布2.1 魔鬼的游戏—认识Beta 分布 ...
机器学习的数学基础（1）--Dirichlet分布
机器学习的数学基础(1)--Dirichlet分布这一系列(机器学习的数学基础)主要包括目前学习过程中回过头复习的基础数学知识的总结. 基础知识:conjugate priors共轭先验共轭先验是 ...
Dirichlet分布深入理解
Dirichlet分布我们把Beta分布推广到高维的场景,就是Dirichlet分布.Dirichlet分布定义如下 Dirichlet分布与多项式分布共轭.多项式分布定义如下共轭关系表示如下 D ...
（转）机器学习的数学基础（1）--Dirichlet分布
转http://blog.csdn.net/jwh_bupt/article/details/8841644 这一系列(机器学习的数学基础)主要包括目前学习过程中回过头复习的基础数学知识的总结. 基础 ...
LDA学习之beta分布和Dirichlet分布
---恢复内容开始--- 今天学习LDA主题模型,看到Beta分布和Dirichlet分布一脸的茫然,这俩玩意怎么来的,再网上查阅了很多资料,当做读书笔记记下来: 先来几个名词: 共轭先验: 在贝叶斯 ...
联邦学习：按Dirichlet分布划分Non-IID样本
我们在<Python中的随机采样和概率分布(二)>介绍了如何用Python现有的库对一个概率分布进行采样,其中的dirichlet分布大家一定不会感到陌生.该分布的概率密度函数为 \[P( ...

随机推荐

Android使用HttpUrlConnection请求服务器发送数据详解
HttpUrlConnection是java内置的api,在java.net包下,那么,它请求网络同样也有get请求和post请求两种方式.最常用的Http请求无非是get和post,get请求可以获 ...
22 Notification样式设置内部按钮点击事件
package com.exam1ple.demo1; import android.app.Activity; import android.app.NotificationManager; imp ...
Java基本语法-----java标识符
1什么是标识符就是程序员在定义java程序时,自定义的一些名字,例如helloworld 程序里关键字class 后跟的Demo,就是我们定义的类名.类名就属于标识符的一种. 标识符除了应用在类名上 ...
Struts 2 标签库
<s:if>标签拥有一个test属性,其表达式的值用来决定标签里内容是否显示 <s:if test="#request.username=='clf'"> ...
Android必知必会-自定义Scrollbar样式
如果移动端访问不佳,请使用–>GitHub版背景设计师给的设计图完全依照 IOS 的标准来的,导致很多细节的控件都得自己重写,最近的设计图中有显示滚动条,Android 默认的滚动条样式(带 ...
指令汇B新闻客户端开发（一）新手引导页开发
首先做开发的时候应该有一个闪屏页面和新手引导页, 我相信闪屏页面大家应该都会了,那么先看到新手引导页了. 我们可以看到这其实是一个ViewPager,我们也可以看到这是3个引导页,那么首先来看一下布局 ...
ubuntu mysql表名大小写区分
近期开发线上操作系统用的ubuntu,数据库用的mysql,突然发现mysql表名大写报错,找一下原因,看了下mysql的配置,果真可以设置,窃喜. 先找到你MySQL的my.cnf配置文件并修改,当 ...
INV 调试: 如何获取库存物料事务处理调试信息
1. 按如下方式设置系统配置文件值: 系统配置文件值地点/用户/应用/职责层配置文件值 --汇总 FND: 启用调试日志是 FND:调试日志层级陈述 INV: 调试跟踪: 是 IN ...
JQuery实战---窗口效果
在前面的相关博文中,小编对jquery的相关知识进行了简单的总结,关于jquery的很多小的知识点,都需要我们自己去动手和实践,一行行代码都需要我们自己亲自动手去敲,今天我们继续来学习jquery的相 ...
Libgdx 1.5.4发布，跨平台游戏开发框架
(原文链接:http://www.libgdx.cn/topic/70/libgdx-1-5-4%E5%8F%91%E5%B8%83) [1.5.4] 添加对Titled maps 的图像层的支持. ...

mahout系列----Dirichlet 分布

mahout系列----Dirichlet 分布的更多相关文章

随机推荐

热门专题