这部分 cover 两个比较特殊的情形,一个是 Gaussian networks,一个是 exponential family。

正态分布常见的参数化策略是均值 和协方差矩阵 ,另一种是使用 information matrix/precision matrix,即 ,另可以用所谓 potential vector 代替 ,即 。小结一下如下

针对 Gaussian 分布有些常见的结论,比如 margin/conditional distribution,相关与独立性的关系这里不再赘述。

常见的 Gaussian Bayesian network 是指所有的 r.v.s 是 Gaussian,且 CPD 都是 LG(linear Gaussian)。可以证明对任意在 上的 Gaussian 分布,以及任意的 ordering(这里假定就是顺序的),可以构造对应的 BN 和图,使得 的 parent 是 ,CPD 都是 LG 且对应的图是 minimal I-map。

如果从 MRF 的角度来看,二次型部分定义了一个 pairwise Markov network,我们称为 GMRF,我们可以容易的证明,

  • 如果 是 attractive 的,即
  • 或者 是严格主对角占优的,即
  • 或者 是 pairwise normalizable,即 对应 对角元非负,且子二次型半正定

都能证明这是一个合法的 GMRF。

这里的指数族方面的分析并不从具体的例子(如 Gaussian 或者 Bernoulli)开始。我们直接定义

其中 是充分统计量(feature),参数空间 是凸子集,而 是自然参数函数(从 moment parameter 映射到 canonical parameter?),而 是辅助测度,这可以看成是一个 MRF。当 是 identity function 时,这是一个 log-linear model。这样我们根据这些 sufficient statistics 就能知道这个 MRG 的结构了。值得注意的是一般说来 BN 通过合适的 CPD 可能能得到 exponential family,但是一般都不是线性关系。

有了一般形式后,我们可以方便计算这个分布的熵

这提示我们一般来说对于一个 MRF 而言其 entropy 具有类似的形式(log partition function – sum of expectation of log factor)。事实上对于 BN 来说,由于 为 1,相反更简单,并且由于 decouple 之后我们可以用条件熵表达出最后的联合熵。这样很容易证明,任意一个与某个 BN consistent 的分布的熵处于对此结构分别最大或者最小化熵之间。

对任意的分布 ,我们可以获得对一个 exponential family 的相对熵(KL divergence):

特别的,如果 ,则

类似可以导出 BN 的情形。

我们根据以上定义的 relative entropy 可以定义两个方向的投影(将分布 投影到分布集合 上):

  • I-projection(information projection):
  • M-projection(moment projection):

为什么这么称呼这两种投影呢?我们知道 M-projection 中 导致我们尽量的在 的 support 处增大 ,这样就会得到一个相对较平的近似(方差较大);而 I-projection 对应 ,会某种程度上要求减少 entropy,即相对更集中的反应 mode 区域的性质。

从理论上研究的话 M-projection 更容易一些,因为 I-projection 里面两项都存在贡献,而如果我们不能对 做一些假设就很难进行下去。对 M-projection 来说,我们可以限定 在某些简单的分布族上,比如 exponential family。

一个有趣的结论是如果我们限定 是任意独立的,那么 M-projection 就是 的 marginal distribution 的乘积。如果限定在指数族上,则得到的 满足 ,即充分统计量(feature)一阶矩在两个分布下能够 matching。对于给定图的 BN 的限定来说我们得到的 必须满足 对应的条件分布。

我们可以回想一下一些常见的做法:

  • EM 算法里面我们选择的 是 I-projection,即正好是后验分布本身。
  • variational Bayesian 我们选择的变分后验(由于真实后验难以计算)也是真实后验的 I-projection,限定在我们给定分解(如全部独立)的情形下的解。
  • expectation propagation 我们选择的 moment matching,亦即选择的是通过 exponential family 做 M-projection,根据以上分析,EP 的优化等价于寻找合适的指数族分布使得在充分统计量上具有相同的一阶矩。

后面我们将开始学习 inference,正式进入第二部分。

——————-
And God said to him in a dream, Yes, I know that you did this in the integrity of your heart; for I also withheld you from sinning against me: therefore suffered I you not to touch her.

pgm4的更多相关文章

随机推荐

  1. SQL 提高性能

    参考博客:http://www.cnblogs.com/jiekzou/p/5988099.html  非常感谢博主分享. 1.set nocount on 关闭行基数信息,减少网络通信,提高程序性能 ...

  2. P1649 [USACO07OCT]障碍路线Obstacle Course

    题目描述 Consider an N x N (1 <= N <= 100) square field composed of 1 by 1 tiles. Some of these ti ...

  3. (转)win7批量创建用户

    @echo off::zhangsan 改为你需要建立的用户名,123456改为你的密码,后面的两个参数的意思是“用户::不可以更改密码”和“密码永不过期”net user xiaowei 12345 ...

  4. 快速在Ubuntu安装PHP网站

    快速安装使用的是tasksel,tasksel是Debian / Ubuntu的工具,安装多个相关软件包作为一个协调的“任务”到你的系统.这个lamp-server^跟taskel这个程序有关.下面是 ...

  5. Windows10安装vmware和centos7

    1. 下载vmware安装包 地址(vmware版本:vmware workstation 14):http://xzc.197746.com/vmware-workstation-full1413. ...

  6. 10、MySQL 的复制

    10.1 复制的概述 10.2 配置复制 10.3 复制的原理 有两种 1.基于sql语句的复制:传输数据少(sql语句文件),就能复制大量的数据,不过由于一些自定义的函数问题,会有一些限制: 2.基 ...

  7. 手把手教你搭APM之Skywalking搭建指南(支持Java/C#/Node.js)

    前言 什么是APM?全称:Application Performance Management 可以参考这里: 现代APM体系,基本都是参考Google的Dapper(大规模分布式系统的跟踪系统)的体 ...

  8. suggest braces around empty body in an 'if' statement

    出现这种错误是要求加大括号

  9. MQ见解

    MQ 消息队列是系统级.模块级的通信.RPC是对象级.函数级通信. 1) 什么是推模式,什么是拉模式 2) 有没有消息丢失情况,如何防止 3) MQ用来解决什么问题 4) 你们用的什么MQ,为什么要用 ...

  10. OD之去除nag弹窗(四)

    在某些方面,一个软件如果没有注册的话,老是会弹出烦人的注册弹窗,就如下图一样: 出现了两次弹窗,开始一次,关闭后又一次,老办法,拖进OD进行分析;不过看出程序很简单,就出现了messagebox的调用 ...