Choi H. I. Lecture 4: Exponential family of distributions and generalized linear model (GLM).

定义

定义: 一个分布具有如下形式的密度函数:

\[f_{\theta}(x) = \frac{1}{Z(\theta)} h(x) e^{\langle T(x), \theta \rangle},
\]

则该分布属于指数族分布.

其中\(x \in \mathbb{R}^m\), \(T(x) = (T_1(x), T_2(x), \cdots, T_k(x)) \in \mathbb{R}^k\), \(\theta = (\theta_1, \theta_2,\cdots, \theta_k)\)为未知参数, \(Z(\theta) = \int h(x)e^{\langle T(x), \theta \rangle} \mathrm{d}x\)为配平常数.

若令\(C(x) = \log h (x)\), \(A(\theta) = \log Z(\theta)\), 则

\[f_{\theta}(x) = \exp (\langle T(x), \theta \rangle - A(\theta) + C(x)).
\]

指数族分布还有一种更一般的形式:

\[f_{\theta}(x) = \exp (\frac{\langle T(x), \theta \rangle - A(\theta)}{\phi} + C(x, \phi)),
\]

更甚者

\[f_{\theta}(x) = \exp (\frac{\langle T(x), \lambda(\theta) \rangle - A(\theta)}{\phi} + C(x, \phi)),
\]

\(\phi\)控制分布的形状.

性质

\(A(\theta)\)

Proposition 1:

\[\nabla_{\theta}A(\theta) = \int f_{\theta}(x) T(x) \mathrm{d}x = \mathbb{E}[T(X)].
\]

proof:

已知:

\[\int f_{\theta}(x) \mathrm{d}x =
\int \exp (\frac{\langle T(x), \theta \rangle - A(\theta)}{\phi} + C(x, \phi)) \mathrm{d}x = 1.
\]

两边关于\(\theta\)求梯度得:

\[\int f_{\theta}(x) \frac{T(x) - \nabla_{\theta} A(\theta)}{\phi} \mathrm{d}x = 0 \Rightarrow \nabla_{\theta} A(\theta) = \mathbb{E}[T(X)].
\]

Proposition 2:

\[D^2_{\theta} A = (\frac{\partial^2 A}{\partial\theta_i \partial \theta_j}) = \frac{1}{\phi}\mathrm{Cov}(T(X), T(X)) = \frac{1}{\phi}Cov(T(X)).
\]

proof:

\[\frac{\partial A}{\partial \theta_i} =
\int \exp (\frac{\langle T(x), \theta \rangle - A(\theta)}{\phi} + C(x, \phi)) T_i(x) \mathrm{d}x.
\]
\[\begin{array}{ll}
\frac{\partial^2 A}{\partial \theta_i \partial \theta_j}
&= \int f_{\theta}(x) \frac{T_j (x) - \frac{\partial A}{\partial \theta_j}}{\phi} T_i(x) \mathrm{d}x \\
&= \frac{1}{\phi}\int f_{\theta}(x) (T_j(x) - \frac{\partial A}{\partial \theta_j}) (T_i(x) - \frac{\partial A}{\partial \theta_i})\mathrm{d}x \\
&= \mathrm{Cov}(T_i(X), T_j(X)).
\end{array}
\]

Corollary 1: \(A({\theta})\)关于\(\theta\)是凸函数.

既然其黑塞矩阵半正定.

极大似然估计

设有\(\{x^i\}_{i=1}^n\)个样本, 则对数似然函数为

\[l(\theta) = \frac{1}{\theta}[\langle \theta, \sum_{i=1}^n T(x^i)-nA(\theta)] + \sum_{i=1}^n C(x^i, \phi),
\]

因为\(A(\theta)\)是凸函数, 所以上述存在最小值点, 且

\[\nabla_{\theta} l(\theta) = \frac{1}{\phi}[\sum_{i=1}^n T(x^i) - n \nabla_{\theta}A(\theta)],
\]

故该最小值点在

\[\nabla_{\theta}A(\theta) = \frac{1}{n} \sum_{i=1}^n T(x^i),
\]

处达到.

最大熵

最大熵原理-科学空间

指数族分布实际上满足最大熵分布, 这是在没有任何偏爱的尺度下的分布.

\[\max_{f} \quad H(f) = -\int f(x)\log f(x) \mathrm{d} x.
\]

等价于最小化

\[\min_f \int f(x)\log f(x) \mathrm{d}x.
\]

往往, 我们会有一些已知的统计信息, 通常以期望的形式表示:

\[\int f(x) h_i(x) \mathrm{d}x = c_i, \quad i=1,2\cdots, s.
\]

则我们的目标实际上是:

\[\min_f \quad \int f(x)\log f(x) \mathrm{d}x \\
\mathrm{s.t.} \quad \int f(x) h_i(x) \mathrm{d}x = c_i, \quad i=0,2\cdots, s.
\]

其中\(h_0 = 1, c_0 =1\), 即密度函数需满足\(\int f(x) \mathrm{d} x= 1\).

利用拉格朗日乘数得:

\[J(f,\lambda) = \int f(x)\log f(x) \mathrm{d}x + \lambda_0 (1 - \int f(x) \mathrm{d}x) + \sum_{i=1}^s \lambda_i [c_i - \int f(x) h_i(x) \mathrm{d}x] .
\]

最优条件, \(J\)关于\(f\)的变分为0, 即

\[1 + \log f(x) - \lambda_0 - \sum_{i=1}^s \lambda_i h_i(x) = 0.
\]

\[f(x) = \frac{1}{Z} \exp(\sum_{i=1}^s \lambda_i h_i(x)).
\]

属于指数分布族.

例子

Bernoulli

\[P(x) = p^x (1-p)^{1-x} = \exp[x\log\frac{p}{1-p} + \log (1 - p)].
\]
\[\theta = \log \frac{p}{1-p}, \\
T(x) = x, \\
A(\theta) = \log (1 + e^{\theta}),\\
h(x) = 0.
\]

指数分布

\[p(x) = \lambda \cdot e^{-\lambda x}=\exp[-\lambda x +\log \lambda ], \quad x \ge 0.
\]
\[\theta = \lambda,\\
T(x) =-x, \\
A(\theta) = \log \frac{1}{\lambda}, \\
h(x) = \mathbb{I}(x\ge0).
\]

正态分布

\[p(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp [-\frac{(x-\mu)^2}{2\sigma^2}].
\]

\(\sigma\)视作已知参数:

\[p(x) = \exp [\frac{-\frac{1}{2}x^2 + x\mu - \frac{1}{2}\mu^2}{\sigma^2} - \frac{1}{2}\log (2\pi \sigma^2)].
\]
\[\theta = (\mu, 1), \\
T(x) = (x, -\frac{1}{2}x^2), \\
\phi = \sigma^2, \\
A(\theta) = \frac{1}{2}\mu^2, \\
C(x, \phi) = \frac{1}{2} \log (2\pi \sigma^2).
\]

\(\sigma\)视作未知参数:

\[p(x) = \exp [-\frac{1}{2\sigma^2}y^2 + \frac{\mu}{\sigma^2}x - \frac{1}{2\sigma^2}\mu^2 - \log \sigma - \frac{1}{2}\log 2\pi].
\]
\[T(x) = (x, \frac{1}{2}x^2), \\
\theta = (\frac{\mu}{\sigma^2}, -\frac{1}{\sigma^2}), \\
A(\theta) = \frac{\mu^2}{2\sigma^2} + \log\sigma, \\
C(x) = -\frac{1}{2}\log(2\pi).
\]

Exponential family of distributions的更多相关文章

  1. 指数族分布(Exponential Families of Distributions)

    指数族分布是一大类分布,基本形式为: T(x)是x的充分统计量(能为相应分布提供足够信息的统计量) 为了满足归一化条件,有: 可以看出,当T(x)=x时,e^A(theta)是h(x)的拉普拉斯变换. ...

  2. PRML读书笔记——2 Probability Distributions

    2.1. Binary Variables 1. Bernoulli distribution, p(x = 1|µ) = µ 2.Binomial distribution + 3.beta dis ...

  3. Python2.7-random

    random 模块,实现了各种分布下的伪随机数生成器.对于整数,可以从一个范围中随机挑选:对于序列,可以随机挑选其中的元素但不改变原序列,也可以对序列中的元素进行重新排列.此外,模块还封装了各种分布函 ...

  4. 基本概率分布Basic Concept of Probability Distributions 6: Exponential Distribution

    PDF version PDF & CDF The exponential probability density function (PDF) is $$f(x; \lambda) = \b ...

  5. [MCSM]Exponential family: 指数分布族

    Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下.本文基本是WIKI上部分内容的 ...

  6. PRML Chapter 2. Probability Distributions

    PRML Chapter 2. Probability Distributions P68 conjugate priors In Bayesian probability theory, if th ...

  7. Sampling Distributions and Central Limit Theorem in R(转)

    The Central Limit Theorem (CLT), and the concept of the sampling distribution, are critical for unde ...

  8. 【概率论】5-7:Gama分布(The Gamma Distributions Part II)

    title: [概率论]5-7:Gama分布(The Gamma Distributions Part II) categories: - Mathematic - Probability keywo ...

  9. Tensorflow Probability Distributions 简介

    摘要:Tensorflow Distributions提供了两类抽象:distributions和bijectors.distributions提供了一系列具备快速.数值稳定的采样.对数概率计算以及其 ...

随机推荐

  1. SpringBoot Profiles 多环境配置及切换

    目录 前言 默认环境配置 多环境配置 多环境切换 小结 前言 大部分情况下,我们开发的产品应用都会根据不同的目的,支持运行在不同的环境(Profile)下,比如: 开发环境(dev) 测试环境(tes ...

  2. SQLyog连接mysql8报2058错误

    连接会话时,报如下错误. 通过网上查解决办法,报这个错误的原因是mysql密码加密方法变了 解决办法: 1.先使用mysql -uroot -p输入密码进去mysql 2.ALTER USER 'ro ...

  3. 从for循环到机器码

    def p(*x): print(x) p(type(range), dir(range)) r = range(2); i = iter(r) try: p(next(i)); p(next(i)) ...

  4. git stash命令及提交指定文件

    一.git stash命令 常用git stash命令: (1)git stash save "save message" : 执行存储时,添加备注,方便查找,只有git stas ...

  5. zabbix之源码安装

    #:官网地址 https://www.zabbix.com/documentation/4.0/zh/manual/installation/install #:解压并创建用户 root@ubuntu ...

  6. t01_docker安装TiDB

    Docker环境安装TiDB,在官方说明的基础上补充了几个细节,安装记录如下 个人环境-vbox上安装centos7.4系统 CPU:12核24线程,分配给虚拟机12线程 MEM: 48G,分配给虚拟 ...

  7. Thymeleaf+layui+jquery复选框回显

    一.Thymeleaf+layui+jquery复选框回显 基于Thymeleaf模板下的layui+jquery复选框回显,主要是jquery.大致意思是:把数组转成JSON传到前台,再在前台转回数 ...

  8. Windows下搭建FFmpeg开发调试环境

    背景 如果你是一个FFmpeg的使用者,那么绝大部分情况下只需要在你的程序中引用FFmpeg的libav*相关的头文件,然后在编译阶段链接相关的库即可. 但是如果你想调试FFmpeg内部相关的逻辑,或 ...

  9. [BUUCTF]REVERSE——[SUCTF2019]SignIn

    [SUCTF2019]SignIn 附件 步骤: 无壳,64位ida载入 程序调用了 __gmpz_init_set_str 函数,这是一个 GNU 高精度算法库,在RSA加密中见过几次,加上6553 ...

  10. JavaScript 中的防抖和节流

    什么是防抖 函数防抖(debounce):当持续触发事件时,一定时间段内没有再触发事件,事件处理函数才会执行一次,如果设定的时间到来之前,又一次触发了事件,就重新开始延时.如下图,持续触发 scrol ...