pgm4

这部分 cover 两个比较特殊的情形，一个是 Gaussian networks，一个是 exponential family。

正态分布常见的参数化策略是均值和协方差矩阵 $\Sigma$ ，另一种是使用 information matrix/precision matrix，即 $\Lambda = \Sigma^{-1}$ ，另可以用所谓 potential vector 代替，即 $h = \Lambda \mu$ 。小结一下如下

$\displaystyle\Pr (x) \propto \exp\left( -\frac{1}{2} (x - \mu)^\top \Sigma^{-1}) (x - \mu)\right) \propto \exp \left( -\frac{1}{2} x^\top \Lambda x + h^\top x\right)$

针对 Gaussian 分布有些常见的结论，比如 margin/conditional distribution，相关与独立性的关系这里不再赘述。

常见的 Gaussian Bayesian network 是指所有的 r.v.s 是 Gaussian，且 CPD 都是 LG（linear Gaussian）。可以证明对任意在 $X_1, \ldots, X_n$ 上的 Gaussian 分布，以及任意的 ordering（这里假定就是顺序的），可以构造对应的 BN 和图，使得的 parent 是 $X_1, \ldots, X_{i - 1}$ ，CPD 都是 LG 且对应的图是 minimal I-map。

如果从 MRF 的角度来看，二次型部分定义了一个 pairwise Markov network，我们称为 GMRF，我们可以容易的证明，

如果是 attractive 的，即 $-\frac{\Lambda_{i, j}}{\sqrt{\Lambda_{i, i} \Lambda_{j, j}}} \geq 0$
或者是严格主对角占优的，即 $\sum_{j \neq i} |\Lambda_{i, j}| < \Lambda_{i, i}$ ；
或者是 pairwise normalizable，即 $\forall i\neq j$ 对应对角元非负，且子二次型半正定

都能证明这是一个合法的 GMRF。

这里的指数族方面的分析并不从具体的例子（如 Gaussian 或者 Bernoulli）开始。我们直接定义

$\displaystyle \Pr(\xi) = \frac{1}{Z(\theta)} A(\xi) \exp\left( \langle t(\theta), \tau(\xi)\right)$

其中 $\tau: \mathcal{X} \mapsto \mathbb{R}^K$ 是充分统计量（feature），参数空间 $\theta \in \Theta\subseteq \mathbb{R}^M$ 是凸子集，而 $t: \Theta \mapsto \mathbb{R}^K$ 是自然参数函数（从 moment parameter 映射到 canonical parameter？），而 $A$ 是辅助测度，这可以看成是一个 MRF。当 $t$ 是 identity function 时，这是一个 log-linear model。这样我们根据这些 sufficient statistics 就能知道这个 MRG 的结构了。值得注意的是一般说来 BN 通过合适的 CPD 可能能得到 exponential family，但是一般都不是线性关系。

有了一般形式后，我们可以方便计算这个分布的熵

$H(\xi) = \log Z(\theta) - \langle \mathbb{E} \tau(\xi), t(\theta)\rangle$

这提示我们一般来说对于一个 MRF 而言其 entropy 具有类似的形式（log partition function – sum of expectation of log factor）。事实上对于 BN 来说，由于 $Z$ 为 1，相反更简单，并且由于 decouple 之后我们可以用条件熵表达出最后的联合熵。这样很容易证明，任意一个与某个 BN consistent 的分布的熵处于对此结构分别最大或者最小化熵之间。

对任意的分布 $q$ ，我们可以获得对一个 exponential family 的相对熵（KL divergence）：

$D(q \| p_\theta) = - H_q(\xi) - \langle \mathbb{E}_q \tau(\xi), t(\theta) \rangle + \log Z(\theta)$

特别的，如果 $q = p_\zeta$ ，则

$D(p_\zeta \| p_\theta) = - \langle \mathbb{E}_{p_{\zeta}} \tau(\xi), t(\theta) \rangle + \log \frac{Z(\theta)}{Z(\zeta)}$

类似可以导出 BN 的情形。

我们根据以上定义的 relative entropy 可以定义两个方向的投影（将分布 $p$ 投影到分布集合 $\mathcal{Q}$ 上）：

I-projection（information projection）： $\min_{q\in\mathcal{Q}} D(q \| p)$
M-projection（moment projection）： $\min_{q \in \mathcal{Q}} D(p \| q)$

为什么这么称呼这两种投影呢？我们知道 M-projection 中 $D(p \| q) = -H_p (\xi) - \mathbb{E}_p (\log q(\xi))$ 导致我们尽量的在 $p$ 的 support 处增大 $q$ ，这样就会得到一个相对较平的近似（方差较大）；而 I-projection 对应 $D(q \| p) = - H_q(\xi) - \mathbb{E}_q (\log p(\xi))$ ，会某种程度上要求减少 entropy，即相对更集中的反应 $p$ mode 区域的性质。

从理论上研究的话 M-projection 更容易一些，因为 I-projection 里面两项都存在贡献，而如果我们不能对 $p$ 做一些假设就很难进行下去。对 M-projection 来说，我们可以限定 $\mathcal{Q}$ 在某些简单的分布族上，比如 exponential family。

一个有趣的结论是如果我们限定 $q$ 是任意独立的，那么 M-projection 就是 $p$ 的 marginal distribution 的乘积。如果限定在指数族上，则得到的 $q$ 满足 $\mathbb{E}_{q(\theta)} \tau (\xi) = \mathbb{E}_{p} \tau (\xi)$ ，即充分统计量（feature）一阶矩在两个分布下能够 matching。对于给定图的 BN 的限定来说我们得到的 $q$ 必须满足 $p$ 对应的条件分布。

我们可以回想一下一些常见的做法：

EM 算法里面我们选择的 $q$ 是 I-projection，即正好是后验分布本身。
variational Bayesian 我们选择的变分后验（由于真实后验难以计算）也是真实后验的 I-projection，限定在我们给定分解（如全部独立）的情形下的解。
expectation propagation 我们选择的 moment matching，亦即选择的是通过 exponential family 做 M-projection，根据以上分析，EP 的优化等价于寻找合适的指数族分布使得在充分统计量上具有相同的一阶矩。

后面我们将开始学习 inference，正式进入第二部分。

——————-
And God said to him in a dream, Yes, I know that you did this in the integrity of your heart; for I also withheld you from sinning against me: therefore suffered I you not to touch her.

pgm4的更多相关文章

随机推荐

微信小程序开发 [05] wx.request发送请求和妹纸图
1.wx.request 微信小程序中用于发起网络请求的API就是wx.request了,具体的参数太多,此处就不再一一详举了,基本使用示例如下: wx.request({ url: 'test.ph ...
添加默认的过滤条件xml
<search string="Search Sales Origin"> <field name="name"/> <field ...
1.3《想成为黑客，不知道这些命令行可不行》(Learn Enough Command Line to Be Dangerous)——手册页
我们运行的命令行程序,通常在技术上称作shell, 它包含了一个非常强大(也很神秘)的工具,我们将用它来学习更多可用的命令.这个工具本身就是个称作'man'的命令('manual'的简写).它的参数是 ...
STM32烧录的常用方式
stm32烧录常用的方式一般为ST-LINK(或者J-tag)下载仿真和ISP下载一.仿真器下载仿真器分为J-TAG和SWD仿真,SWD仿真只需要4根线(VCC.GND.CLK.DATA)就可以了 ...
Django中的cookie和session
前言 HTTP协议是短连接.且状态的,所以在客户端向服务端发起请求后,服务端在响应头加入cokie响应给浏览器,以此记录客户端状态: cook是来自服务端,保存在浏览器的键值对,主要应用于用户登录 ...
ReactJS实用技巧（2）：从新人大坑——表单组件来看State
不太清楚有多少初学React的同学和博主当时一样,在看完React的生命周期.数据流之后觉得已经上手了,甩开文档啪啪啪的开始敲了起来.结果...居然被一个input标签给教做人了. 故事是这样的:首先 ...
BugkuCTF 文件上传测试
前言写了这么久的web题,算是把它基础部分都刷完了一遍,以下的几天将持续更新BugkuCTF WEB部分的题解,为了不影响阅读,所以每道题的题解都以单独一篇文章的形式发表,感谢大家一直以来的支持和理 ...
numpy 初识（一）
基本操作: 读取文件(与pandas读取csv相似): import numpy numpy.genfromtxt("word.txt", delimiter=',', dtype ...
Selenium和TestNG
本文档由Felipe Knorr Kuhn撰写,并根据其博客上发布的一系列文章进行改编. 建模您的测试用例在编写测试用例之前,您需要知道如何验证以及将要验证的内容.让我们使用WordPress “创 ...
web前端开发分享-css,js入门篇
学习没有捷径,但学习是有技巧与方法. 一,css入门篇: 推荐书籍:css哪些事儿,精通css. 理由:css那些事儿,他是一本介绍css基础类的书,是入门的经典读物. 系统的介绍了css的选 ...

pgm4

pgm4的更多相关文章

随机推荐

热门专题