Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下。本文基本是WIKI上部分内容的翻译。

1. 几个问题

什么是指数分布族?

既然是”族“,那么族内的共同特点是什么?

为何指数分布族被广泛应用?是指数分布族选择了我们,还是我们选择了指数分布族?(这个问题没有回答,需要结合具体实例分析)

2. 参考

Exponential family. (2015, February 26). In Wikipedia, The Free Encyclopedia. Retrieved 05:00, April 3, 2015, from http://en.wikipedia.org/w/index.php?title=Exponential_family&oldid=648989632

3. 指数分布族: 定义

指数分布族指概率分布满足以下形式的分布

其中($\theta$,$x$也可以是标量)

Exponential family ,也称 Exponential Class,包括了很多常见的分布。譬如

normal, exponential, gamma, chi-squared, beta, Dirichlet, Bernoulli, categorical, Poisson, Wishart, Inverse Wishart.

分布函数中的T (x ) , η (θ  ) 和 A(η )并不是任意定义的,每一部分都有其特殊的意义。

        T (x )是分布的充分统计量(sufficient statistic

        η 是自然参数。对于有限的函数而言, η 的集合被称为自然参数空间。

        A(η )被称为对数配分函数(partition function ),实际上它是归一化因子的对数形式。它使得概率分布积分为1的条件得到满足。

上式可以看出,通过对 A(η )求导,容易得到充分统计量T (x )的均值,方差和其他性质。(怎么求?)

4. 指数分布族:性质

指数分布族具有很多性质,这些性质使得指数分布族在统计分析具有重要作用。并且在很多情况下,只有指数分布族具有那些性质。其中包括

不太懂,怕弄错,还是给原文好了。

具体解释如下(没看到的就不解释了……):

(1) 指数函数的充分统计量的可以从大量的i.i.d.数据中归结为估计的几个值(即T (x )),这点在 sufficient statistics中也有说明

According to the Pitman–Koopman–Darmois theorem, among families of probability distributions whose domain does not vary with the parameter being estimated, only in exponential families is there a sufficient statistic whose dimension remains bounded as sample size increases. Less tersely, suppose are independent identically distributed random variables whose distribution is known to be in some family of probability distributions. Only if that family is an exponential family is there a (possibly vector-valued) sufficient statistic whose number of scalar components does not increase as the sample size n increases.

This theorem shows that sufficiency (or rather, the existence of a scalar or vector-valued of bounded dimension sufficient statistic) sharply restricts the possible forms of the distribution.

(2)指数分布族具有共轭先验特性。可参考本文“术语解释”。

5. 指数分布族:举例

正态分布

这是单参数的指数分布族,可以被写为如下标准形式。

更多可参考WIKIPEDIA

6. 术语解释

independent identically distributed独立同分布(i.i.d.)

如果在一组随机变量集合中,任意一随机变量都有相同的概率分布,并且相互之间独立,那么则称变量集独立同分布。

sufficient statistic充分统计量

统计量T(X ) 对于给定参数θ 而言是充分的 是指对于X 的条件概率而言, 给定统计量T (X ), 则不依赖于参数 θ。

一种更容易理解的方式是(参考Steven M.Kay《统计信号处理基础》),充分统计量是不止一个的。对于要估计的参数θ 来说,观测到数据集合显然是充分统计量。而充分代表着一旦给定了充分统计量,那么参数的条件概率和其他统计量无关。

上述两个式子是等价的。通过贝叶斯公式可以互相推导得到。

partition function配分函数

太长了,没看。是归一化参数的一种特殊情况,这里简单的理解为归一化参数就好。

conjugate priors 共轭先验(不知道是否应该这样翻译)

在贝叶斯概率理论中,如果后验概率分布p(θ|x )和先验概率分布p(θ)同属于一种概率分布族,那么后验和先验称为共轭分布。同时这一先验被称为在此似然函数下的共轭先验。

贝叶斯定理有

给定似然函数(通过观察结果,这通常来说是很好的到的),上式的积分求解的难度和先验知识有关。在某些选择下,后验概率分布和先验概率分布具有类似的代数结构。

共轭先验性质给出了后验概率分布的闭式解,否则我们需要求解复杂的积分。而且,共轭先验使得我们能够清楚的看到似然函数对概率分布的影响。

7.待续

[MCSM]Exponential family: 指数分布族的更多相关文章

  1. 机器学习-牛顿方法&指数分布族&GLM

    本节内容 牛顿方法 指数分布族 广义线性模型 之前学习了梯度下降方法,关于梯度下降(gradient descent),这里简单的回顾下[参考感知机学习部分提到的梯度下降(gradient desce ...

  2. Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

    (一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x), ...

  3. 【cs229-Lecture4】GLMS:选定指数分布族,如何用它来推导出GLM?

    在Lecture4中有3部分内容: Newton’s method        牛顿方法 Exceponential Family        指数分布族 Generalized Linear M ...

  4. [MCSM] 蒙特卡罗统计方法

    起因 最开始的时候,写多了LDPCC误码率的仿真,心中便越来越有了疑惑.误码率仿真,多为Monte Carlo仿真,其原理是什么,仿真结果是否可靠,可靠程度是多少,如何衡量其可靠性这些问题我都很不清楚 ...

  5. 广义线性模型(Generalized Linear Models)

    在线性回归问题中,我们假设,而在分类问题中,我们假设,它们都是广义线性模型的例子,而广义线性模型就是把自变量的线性预测函数当作因变量的估计值.很多模型都是基于广义线性模型的,例如,传统的线性回归模型, ...

  6. PRML Chapter2

    参考文献:PRML2 参数方法和非参数方法 机器学习上的方法分为参数方法(根据先验知识假定模型服从某种分布,然后利用训练集估计出模型参数,也就弄清楚了整个模型,例如感知器)和非参数方法(基于记忆训练集 ...

  7. Exponential family of distributions

    目录 定义 性质 极大似然估计 最大熵 例子 Bernoulli 指数分布 正态分布 Choi H. I. Lecture 4: Exponential family of distributions ...

  8. Golomb及指数哥伦布编码原理介绍及实现

    2017年的第一篇博文. 本文主要有以下三部分内容: 介绍了Golomb编码,及其两个变种:Golomb-Rice和Exp-Golomb的基本原理 C++实现了一个简单的BitStream库,能够方便 ...

  9. 广义线性模型(Generalized Linear Models)

    前面的文章已经介绍了一个回归和一个分类的例子.在逻辑回归模型中我们假设: 在分类问题中我们假设: 他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族. 指数分布族(The E ...

随机推荐

  1. docker-2 深入了解docker

    docker镜像.容器.仓库的基本概念 镜像 Docker 镜像就是一个只读的模板.例如:一个镜像可以包含一个完整的 CentOS 操作系统环境,里面仅安装了 httpd或用户需要的其它应用程序. 镜 ...

  2. MTOM以及在WCF中的应用

    关于MTOM的基本概念 提到MTOM消息优化传输机制,通常的实验结果是使用MTOM传输数据会提高大约33%的性能. 消息传输优化机制 (MTOM) 标准允许将消息中包含的大型数据元素外部化,并将其作为 ...

  3. 为什么QQ浏览器不是默认浏览器但是在打开网页的时候还是默认启动?

    因需要浏览器兼容性测试装了一个QQ浏览器,我将火狐设为默认浏览器,但是每次打开连接的时候都是启动QQ浏览器. 出现这样的情况有以下两种可能:1.取消QQ为默认浏览器打开的设置项未成功,若需要取消QQ为 ...

  4. JSON、使用JSON进行数据交换的基础和原理

    1. JSON 1.1. JSON 1.1.1. 什么是JSON JSON即Javascript对象表示法,是一种现在主流的数据交换格式.之所以应用广泛还是由其简单易读所决定的. 简单,只有六种类型的 ...

  5. (二)我的Makefile学习冲动&&编译过程概述

    前言 一 年轻的冲动 二 学习曲线 1 Makefile基本语法 2 bash基础 3 world 三 编译过程概述 1 主机预装工具 2 编译host工具 3 编译交叉工具链 4 编译内核模块 5 ...

  6. Linux搭建DNS服务器

    Linux系统信息: Version: Centos 6.6 Ip address:10.0.0.104 Hostname: extmail.com 配置系统 hostname Vim /etc/sy ...

  7. Adaboost 卡口车辆检测训练

    之前做了SVM的车脸检测,主要是针对车脸,接下来尝试利用Adaboost和Haar进行车脸的检测.我利用的主要是opencv中的cascade,其已经把Adaboost相关的算法做成了exe,直接调用 ...

  8. 最小生成树 kruskal hdu 5723 Abandoned country

    题目链接:hdu 5723 Abandoned country 题目大意:N个点,M条边:先构成一棵最小生成树,然后这个最小生成树上求任意两点之间的路径长度和,并求期望 /************** ...

  9. NYOJ----1124数量

    数量 时间限制:200 ms  |  内存限制:65535 KB 难度:0 描述 HJS大牛想去街上吃饭,街道旁边拴着很多狗,他想我堂堂......(省略n个字)岂会被狗咬,所以他很牛的从狗的面前经过 ...

  10. Unity 跑酷Demo难题总结

    问题1:路面拼接处理 在拼接路的时候,如果两个路挨的太近就会出现贴图闪烁,如下所示 解决办法 如果把路改小就会出现断层,但不会出现贴图闪烁 PS:我是把贴图放在Cube上的,所以路是有厚度. 附注 刚 ...