pgm4

这部分 cover 两个比较特殊的情形，一个是 Gaussian networks，一个是 exponential family。

正态分布常见的参数化策略是均值和协方差矩阵 $\Sigma$ ，另一种是使用 information matrix/precision matrix，即 $\Lambda = \Sigma^{-1}$ ，另可以用所谓 potential vector 代替，即 $h = \Lambda \mu$ 。小结一下如下

$\displaystyle\Pr (x) \propto \exp\left( -\frac{1}{2} (x - \mu)^\top \Sigma^{-1}) (x - \mu)\right) \propto \exp \left( -\frac{1}{2} x^\top \Lambda x + h^\top x\right)$

针对 Gaussian 分布有些常见的结论，比如 margin/conditional distribution，相关与独立性的关系这里不再赘述。

常见的 Gaussian Bayesian network 是指所有的 r.v.s 是 Gaussian，且 CPD 都是 LG（linear Gaussian）。可以证明对任意在 $X_1, \ldots, X_n$ 上的 Gaussian 分布，以及任意的 ordering（这里假定就是顺序的），可以构造对应的 BN 和图，使得的 parent 是 $X_1, \ldots, X_{i - 1}$ ，CPD 都是 LG 且对应的图是 minimal I-map。

如果从 MRF 的角度来看，二次型部分定义了一个 pairwise Markov network，我们称为 GMRF，我们可以容易的证明，

如果是 attractive 的，即 $-\frac{\Lambda_{i, j}}{\sqrt{\Lambda_{i, i} \Lambda_{j, j}}} \geq 0$
或者是严格主对角占优的，即 $\sum_{j \neq i} |\Lambda_{i, j}| < \Lambda_{i, i}$ ；
或者是 pairwise normalizable，即 $\forall i\neq j$ 对应对角元非负，且子二次型半正定

都能证明这是一个合法的 GMRF。

这里的指数族方面的分析并不从具体的例子（如 Gaussian 或者 Bernoulli）开始。我们直接定义

$\displaystyle \Pr(\xi) = \frac{1}{Z(\theta)} A(\xi) \exp\left( \langle t(\theta), \tau(\xi)\right)$

其中 $\tau: \mathcal{X} \mapsto \mathbb{R}^K$ 是充分统计量（feature），参数空间 $\theta \in \Theta\subseteq \mathbb{R}^M$ 是凸子集，而 $t: \Theta \mapsto \mathbb{R}^K$ 是自然参数函数（从 moment parameter 映射到 canonical parameter？），而 $A$ 是辅助测度，这可以看成是一个 MRF。当 $t$ 是 identity function 时，这是一个 log-linear model。这样我们根据这些 sufficient statistics 就能知道这个 MRG 的结构了。值得注意的是一般说来 BN 通过合适的 CPD 可能能得到 exponential family，但是一般都不是线性关系。

有了一般形式后，我们可以方便计算这个分布的熵

$H(\xi) = \log Z(\theta) - \langle \mathbb{E} \tau(\xi), t(\theta)\rangle$

这提示我们一般来说对于一个 MRF 而言其 entropy 具有类似的形式（log partition function – sum of expectation of log factor）。事实上对于 BN 来说，由于 $Z$ 为 1，相反更简单，并且由于 decouple 之后我们可以用条件熵表达出最后的联合熵。这样很容易证明，任意一个与某个 BN consistent 的分布的熵处于对此结构分别最大或者最小化熵之间。

对任意的分布 $q$ ，我们可以获得对一个 exponential family 的相对熵（KL divergence）：

$D(q \| p_\theta) = - H_q(\xi) - \langle \mathbb{E}_q \tau(\xi), t(\theta) \rangle + \log Z(\theta)$

特别的，如果 $q = p_\zeta$ ，则

$D(p_\zeta \| p_\theta) = - \langle \mathbb{E}_{p_{\zeta}} \tau(\xi), t(\theta) \rangle + \log \frac{Z(\theta)}{Z(\zeta)}$

类似可以导出 BN 的情形。

我们根据以上定义的 relative entropy 可以定义两个方向的投影（将分布 $p$ 投影到分布集合 $\mathcal{Q}$ 上）：

I-projection（information projection）： $\min_{q\in\mathcal{Q}} D(q \| p)$
M-projection（moment projection）： $\min_{q \in \mathcal{Q}} D(p \| q)$

为什么这么称呼这两种投影呢？我们知道 M-projection 中 $D(p \| q) = -H_p (\xi) - \mathbb{E}_p (\log q(\xi))$ 导致我们尽量的在 $p$ 的 support 处增大 $q$ ，这样就会得到一个相对较平的近似（方差较大）；而 I-projection 对应 $D(q \| p) = - H_q(\xi) - \mathbb{E}_q (\log p(\xi))$ ，会某种程度上要求减少 entropy，即相对更集中的反应 $p$ mode 区域的性质。

从理论上研究的话 M-projection 更容易一些，因为 I-projection 里面两项都存在贡献，而如果我们不能对 $p$ 做一些假设就很难进行下去。对 M-projection 来说，我们可以限定 $\mathcal{Q}$ 在某些简单的分布族上，比如 exponential family。

一个有趣的结论是如果我们限定 $q$ 是任意独立的，那么 M-projection 就是 $p$ 的 marginal distribution 的乘积。如果限定在指数族上，则得到的 $q$ 满足 $\mathbb{E}_{q(\theta)} \tau (\xi) = \mathbb{E}_{p} \tau (\xi)$ ，即充分统计量（feature）一阶矩在两个分布下能够 matching。对于给定图的 BN 的限定来说我们得到的 $q$ 必须满足 $p$ 对应的条件分布。

我们可以回想一下一些常见的做法：

EM 算法里面我们选择的 $q$ 是 I-projection，即正好是后验分布本身。
variational Bayesian 我们选择的变分后验（由于真实后验难以计算）也是真实后验的 I-projection，限定在我们给定分解（如全部独立）的情形下的解。
expectation propagation 我们选择的 moment matching，亦即选择的是通过 exponential family 做 M-projection，根据以上分析，EP 的优化等价于寻找合适的指数族分布使得在充分统计量上具有相同的一阶矩。

后面我们将开始学习 inference，正式进入第二部分。

——————-
And God said to him in a dream, Yes, I know that you did this in the integrity of your heart; for I also withheld you from sinning against me: therefore suffered I you not to touch her.

pgm4的更多相关文章

随机推荐

C++之数据类型
C++语言是广泛使用的程序设计语言之一,因其特有的优势在计算机应用领域占有重要一席. C++中的数据类型 C++中的数据类型分为两大类:基本数据类型和非基本数据类型,如图1.1所示. 图1.1 C++ ...
Java中的枚举使用详解
转载至:http://www.cnblogs.com/linjiqin/archive/2011/02/11/1951632.html package com.ljq.test; /** * 枚举用法 ...
Altium 拼板方法以及注意的地方
1.修改软件设置, 即工具→优先选项→覆铜重建对号去掉,如下,否则拼板复制覆铜会变形导致拼板错误!!! 2.拼板方法,Ctrl+A全部复制(不要漏掉),选择特殊粘贴的方式,快捷键 E→A 去 ...
警惕ASP.NET MVC中的ValidateInputAttribute
最近在做一个ASP.NET MVC项目的时候发现,有一个Controller的Action死活都没法接收到从客户端提交过来的Html表单请求和数据,后来才发现是因为默认情况下ASP.NET MVC在执 ...
大数据入门第二十天——scala入门（二）scala基础01
一.基础语法 1.变量类型 // 上表中列出的数据类型都是对象,也就是说scala没有java中的原生类型.在scala是可以对数字等基础类型调用方法的. 2.变量声明——能用val的尽量使用val! ...
20155226《网络攻防》 Exp3 免杀原理与实践
20155226<网络攻防> Exp3 免杀原理与实践实验过程 1. msfvenom直接生成meterpreter可执行文件直接将上周做实验时用msf生成的后门文件放在virscan ...
20155302《网络对抗》Exp6 信息收集与漏洞扫描
20155302<网络对抗>Exp6 信息收集与漏洞扫描实验内容 (1)各种搜索技巧的应用 (2)DNS IP注册信息的查询 (3)基本的扫描技术:主机发现.端口扫描.OS及服务版本探测 ...
对JSON传递图片Base64编码的一点总结
项目中跟Java对接的时候需要传输图片,经过Base64编码后传输的. 但是实际调试的时候发现Java那边始终无法正常解析出图片. 冷静想想之后,发现问题在于使用OpenCV读取图片,编码的是Mat: ...
libgdx学习记录5——演员Actor
Actor也是libgdx中非常重要的一个元素,一般与stage配合一起使用.Actor能够设置大小,位置,旋转和动画等. 我们自定义的Actor一般需要继承于Actor,并且重写其中的act和dra ...
C语言与数据库操作入门
https://blog.csdn.net/flyingqd/article/details/78763652 C语言与数据库操作入门(Win版) 2017年12月10日 17:30:17 阅读数:1 ...

pgm4

pgm4的更多相关文章

随机推荐

热门专题