这部分 cover 两个比较特殊的情形,一个是 Gaussian networks,一个是 exponential family。

正态分布常见的参数化策略是均值 和协方差矩阵 ,另一种是使用 information matrix/precision matrix,即 ,另可以用所谓 potential vector 代替 ,即 。小结一下如下

针对 Gaussian 分布有些常见的结论,比如 margin/conditional distribution,相关与独立性的关系这里不再赘述。

常见的 Gaussian Bayesian network 是指所有的 r.v.s 是 Gaussian,且 CPD 都是 LG(linear Gaussian)。可以证明对任意在 上的 Gaussian 分布,以及任意的 ordering(这里假定就是顺序的),可以构造对应的 BN 和图,使得 的 parent 是 ,CPD 都是 LG 且对应的图是 minimal I-map。

如果从 MRF 的角度来看,二次型部分定义了一个 pairwise Markov network,我们称为 GMRF,我们可以容易的证明,

  • 如果 是 attractive 的,即
  • 或者 是严格主对角占优的,即
  • 或者 是 pairwise normalizable,即 对应 对角元非负,且子二次型半正定

都能证明这是一个合法的 GMRF。

这里的指数族方面的分析并不从具体的例子(如 Gaussian 或者 Bernoulli)开始。我们直接定义

其中 是充分统计量(feature),参数空间 是凸子集,而 是自然参数函数(从 moment parameter 映射到 canonical parameter?),而 是辅助测度,这可以看成是一个 MRF。当 是 identity function 时,这是一个 log-linear model。这样我们根据这些 sufficient statistics 就能知道这个 MRG 的结构了。值得注意的是一般说来 BN 通过合适的 CPD 可能能得到 exponential family,但是一般都不是线性关系。

有了一般形式后,我们可以方便计算这个分布的熵

这提示我们一般来说对于一个 MRF 而言其 entropy 具有类似的形式(log partition function – sum of expectation of log factor)。事实上对于 BN 来说,由于 为 1,相反更简单,并且由于 decouple 之后我们可以用条件熵表达出最后的联合熵。这样很容易证明,任意一个与某个 BN consistent 的分布的熵处于对此结构分别最大或者最小化熵之间。

对任意的分布 ,我们可以获得对一个 exponential family 的相对熵(KL divergence):

特别的,如果 ,则

类似可以导出 BN 的情形。

我们根据以上定义的 relative entropy 可以定义两个方向的投影(将分布 投影到分布集合 上):

  • I-projection(information projection):
  • M-projection(moment projection):

为什么这么称呼这两种投影呢?我们知道 M-projection 中 导致我们尽量的在 的 support 处增大 ,这样就会得到一个相对较平的近似(方差较大);而 I-projection 对应 ,会某种程度上要求减少 entropy,即相对更集中的反应 mode 区域的性质。

从理论上研究的话 M-projection 更容易一些,因为 I-projection 里面两项都存在贡献,而如果我们不能对 做一些假设就很难进行下去。对 M-projection 来说,我们可以限定 在某些简单的分布族上,比如 exponential family。

一个有趣的结论是如果我们限定 是任意独立的,那么 M-projection 就是 的 marginal distribution 的乘积。如果限定在指数族上,则得到的 满足 ,即充分统计量(feature)一阶矩在两个分布下能够 matching。对于给定图的 BN 的限定来说我们得到的 必须满足 对应的条件分布。

我们可以回想一下一些常见的做法:

  • EM 算法里面我们选择的 是 I-projection,即正好是后验分布本身。
  • variational Bayesian 我们选择的变分后验(由于真实后验难以计算)也是真实后验的 I-projection,限定在我们给定分解(如全部独立)的情形下的解。
  • expectation propagation 我们选择的 moment matching,亦即选择的是通过 exponential family 做 M-projection,根据以上分析,EP 的优化等价于寻找合适的指数族分布使得在充分统计量上具有相同的一阶矩。

后面我们将开始学习 inference,正式进入第二部分。

——————-
And God said to him in a dream, Yes, I know that you did this in the integrity of your heart; for I also withheld you from sinning against me: therefore suffered I you not to touch her.

pgm4的更多相关文章

随机推荐

  1. HTTP请求header信息讲解

    HTTP消息包括客户机向服务器的请求消息和服务器向客户机的响应消息.这两种类型的消息由一个起始行,一个或者多个头域,一个只是头域结束的空行和可选的消息体组成.HTTP的头域包括通用头,请求头,响应头和 ...

  2. Android 给双ListView组织数据源

    需求:现有这样一套原始数据{“A”,"B","C","D","B","A","B" ...

  3. day64

    Day64 Django学习篇一 1.web应用 2.C/S和B/S架构 3.python中的web框架 ​ a:socket ​ b:路由跟视图函数的匹配关系 ​ c:模板渲染 ​ django: ...

  4. linux中分区、格式化文件系统、挂载

    以前学linux的时候,毕竟自己没搞运维,就只注重了很多命令的运用,没太在意文件系统这块.买了本linux的书,这部分看了点东西,记个笔记哈哈. 有个场景,比如说我们现在的服务器上存储不够用了,那么当 ...

  5. CentOS 6.8 虚拟机安装详解

    第一步:安装 VMware 官方网站:www.vmware.com 下载百度云链接:http://pan.baidu.com/s/1bphDOWv 密码:0zix VMware 是一个虚拟 PC 的软 ...

  6. 数据结构与算法 基于c语言篇

    学习数据结构与算法走向深蓝之路 第一章:数据结构与算法概念型 数据结构:数据之间的相互关系,即是数据的组织形式. 基本组成:{ 数据:信息的载体 数据元素:数据基本单位: } 其结构形式有四种: 1, ...

  7. Intel 面试(就不该报外企,英语是硬伤)

    1 自我介绍(用英文) 啊啊啊,能不能用中文啊,最好用英文,蒙了.... 2 你对硬件了解吗,对X86系统了解吗,知道CPU是怎么处理读一个数据的吗,说说cpu从读一个数据,到内存怎么进行处理? 说的 ...

  8. c# thread pause example

    some times we need pause thread to do some additional job: c# thread pause example as below: 1. crea ...

  9. debian系统下改语言设置

    debian系统下改语言设置 安装debian 的时候选择了中文zh_CN_UTF-8,然后进系统后想换成en_US_UTF-8 可以使用一下命令选择:找到需要的语言 确定即可 dpkg-reconf ...

  10. AT24C02跨页写数据

    AT24C02 EEPROM的写数据分为:字节写数据模式和页写数据模式:字节写就是一个地址一个数据的写,页写是连续写数据,一个地址多个数据的写,但是页写不能自动跨页,如果超出一页长度,超出的数据会覆盖 ...