熵

给定一个离散变量，我们观察它的每一个取值所包含的信息量的大小，因此，我们用来表示信息量的大小，概率分布为。当p(x)=1时，说明这个事件一定会发生，因此，它带给我的信息为0.（因为一定会发生，毫无悬念）

如果x和y独立无关，那么：

他们之间的关系为：

（p(x)=1时，h(x)=0，负号为了确保h(x)为正，这里取2为底是随机的，可以取其他的正数（除了1））

因此，对于所有x的取值，它的熵有：

注：，当遇到时，

这里插一段信息熵的解释：

———————————————————————————————信息熵—————————————————————————————————————————————————

信息熵是对信息的度量，那什么又是信息呢？直观上的理解就是，知道我们原来不知道的事物就是获得信息的过程，因此对于个人来说，一件事的未知性越大，即不确定性越大，相应的信息就应该越大，传输或者存储应该付出更多的代价。例如我们说太阳从东边升起，这是一件必然的事，听到这句话没有获得任何信息，因此它的熵是0，信息论中信息与不确定性等价。

有了这个直观认识，可以对其数学化，在数学中表达不确定性的就是概率。在上面的例子中，我们讨论信息的时候，实质上是在说一件事发生的概率大小，这件事有一定概率发生。我们说信息熵是大是小，要明确是哪个随机变量的信息熵，这样才不至于迷糊。一件事发生的概率大，那么它的熵就小，一件事发生的概率小，那么它的熵就大。

问32支球队哪个得冠军，我们可以设一个随机变量X表示得冠军的球队，假设每个球队得冠军的概率相等，那么一个球队的熵x1 表示为 h(x1) = logp(x1), 所有球队求和得到X的熵：

$H(X) = -\sum P(x)logP(x)$

一般情况对数取2为底，表示X对应的比特数。

总之，信息熵可以让我们定量的说出信息有多少，让一个抽象的概念可以定量的描述。另外，当我们说到信息熵的时候首先明确一下是哪个随机变量的信息熵，该随机变量的样本空间是什么，然后运用概率论的知识就可以求出来了。需要注意的是信息量的多少和信息的重要性没有必然的联系，信息熵只是在数量上给了一个数值，并非表示该信息的重要性。

———————————————————————————————————————————————————————————————————————————————————

举个例子：

假设你要发送一个离散变量给别人，这个离散变量有8个取值，并且这8个取值取到的概率相同，那么，这个变量的熵为：

另外举个例子：

一个变量含有8个状态值，，相应的概率为：，那么，它的熵为：

从上面的例子可以看出，不均匀分布的信息熵小于均匀分布的信息熵。这是为什么呢？

因为，如果我们想要吧这个变量发送给别人，一种方法就是用3位来表示每一个数，那么它的平均译码长度为3.

这里还有一种别的方法就是：

用来表示。

平均的译码长度为2即可：

为了消除二异性，没有比这个更短的了。

（再次感受到了数学之美）

我们可以从另一个角度去理解信息熵：

假设有N个相同的物品，第i个箱子中有个物品。对于第i个箱子，首先它有N种选择去取第一件物品，N-1种选择去取第二件物品，因此，对于一个箱子而言，它有N!种选择。但是，对于同一个箱子中的物品，我们并不希望加以区分，因此，对于第i个箱子而言，它有种排序方式，因此，总的组合方法数multiplicity 为：

其中，熵为其取对数：

当时，，

因此，。

对于一个特定的状态，即一个实例，称作一个“微观状态”；

对于所有的状态而言，即称作一个“宏观状态”，而w就是一个宏观状态。

对于一个特定的状态xi而言，它的概率为：

当每个微观状态发生的概率集中出现在少数值附近，往往它的熵会较小。

如图所示：

假设有M个状态，我们试图去最大化熵：

我们发现，当相等时，相应的熵为：

，这个状态下，熵达到了最大值。

现在，我们假设x为连续型变量，我们求偏导：

其中，Iij为单位矩阵。

根据中值定理，我们可以得出：

假设变量x落在第i个箱子中的概率为：

其中：

而当趋近于0时，上式最右侧第二项趋近于0，而第一个项则趋近的表达式称为微分熵(differential entropy)：

对于连续变量而言，熵如何取最大？

首先，它满足如下约束：

使用拉格朗日乘子法可以得到：

简化得到：

可以发现，微分熵最大的概率分布为高斯分布。

我们在计算时，并没有假定微分熵一定是非负的，因此，它并不是一个必要条件。

正态分布的微分熵表达式：

可以发现，随着方差的增大，熵变大。

相对熵（Relative entropy）和互信息（mutual information）

相对熵（relative entropy）又称为KL散度（Kullback–Leibler divergence，簡稱KLD），信息散度（information divergence），信息增益（information gain）。

这并非是对称的，即，仅仅在p(x)=q(x)的时候成立

—————————————————————————————————————————————————————————————————————————

—————————————————————————————————————————————————————————————————————————

凸函数：

性质：

其中，且

琴生不等式（Jensen's inequality）

琴生不等式（Jensen's inequality）以丹麦数学家约翰·琴生（Johan Jensen）命名。它给出积分的凸函数值和凸函数的积分值间的关系。琴生不等式有以下推论：过一个凸函数上任意两点所作割线一定在这两点间的函数图象的上方，即：

概率论的版本

以概率论的名词，是个概率测度。函数换作实值随机变数（就纯数学而言，两者没有分别）。在空间上，任何函数相对于概率测度的积分就成了期望值。这不等式就说，若是任一凸函数，则。

E表示期望。连续型变量的jensen不等式为：

把jensen不等式应用在相对熵上面，得到：

相对熵和似然函数

假设未知真实分布为，我们希望使用一个参数模型结合N个观测数据来确定一个最优的来模拟真实分布。一种自然的方法是使用KL距离做为误差函数，以最小化和的KL距离为标准来确定最优的参数值。

将上面的误差函数相对于参数求导，可知：最小化KL距离等价于最大化似然函数。

互信息(mutual information)

互信息描述了两个变量之间互相包含关于对方的信息量。定义为两个分布和之间的KL距离

根据相对熵的非负性可知，互信息是非负的，当仅且当两个变量相互独立时互信息为零。

由此可知，互信息可以看作，当已知一个变量的情况下，另一个变量不确定性降低的程度。

【PRML读书笔记-Chapter1-Introduction】1.6 Information Theory的更多相关文章

【PRML读书笔记-Chapter1-Introduction】1.5 Decision Theory
初体验: 概率论为我们提供了一个衡量和控制不确定性的统一的框架,也就是说计算出了一大堆的概率.那么,如何根据这些计算出的概率得到较好的结果,就是决策论要做的事情. 一个例子: 文中举了一个例子: 给定 ...
【PRML读书笔记-Chapter1-Introduction】1.2 Probability Theory
一个例子: 两个盒子: 一个红色:2个苹果,6个橘子; 一个蓝色:3个苹果,1个橘子; 如下图: 现在假设随机选取1个盒子,从中.取一个水果,观察它是属于哪一种水果之后,我们把它从原来的盒子中替换掉. ...
PRML读书笔记——Introduction
1.1. Example: Polynomial Curve Fitting 1. Movitate a number of concepts: (1) linear models: Function ...
PRML读书笔记——机器学习导论
什么是模式识别(Pattern Recognition)? 按照Bishop的定义,模式识别就是用机器学习的算法从数据中挖掘出有用的pattern. 人们很早就开始学习如何从大量的数据中发现隐藏在背后 ...
PRML读书笔记——3 Linear Models for Regression
Linear Basis Function Models 线性模型的一个关键属性是它是参数的一个线性函数,形式如下: w是参数,x可以是原始的数据,也可以是关于原始数据的一个函数值,这个函数就叫bas ...
【PRML读书笔记-Chapter1-Introduction】1.3 Model Selection
在训练集上有个好的效果不见得在测试集中效果就好,因为可能存在过拟合(over-fitting)的问题. 如果训练集的数据质量很好,那我们只需对这些有效数据训练处一堆模型,或者对一个模型给定系列的参数值 ...
《深入PHP与jQuery开发》读书笔记——Chapter1
由于去实习过后,发现真正的后台也要懂前端啊,感觉javascript不懂,但是之前用过jQuery感觉不错,很方便,省去了一些内部函数的实现. 看了这一本<深入PHP与jQuery开发>, ...
PRML读书笔记——2 Probability Distributions
2.1. Binary Variables 1. Bernoulli distribution, p(x = 1|µ) = µ 2.Binomial distribution + 3.beta dis ...
PRML读书笔记——Mathematical notation
x, a vector, and all vectors are assumed to be column vectors. M, denote matrices. xT, a row vcetor, ...

随机推荐

atitit.提升开发效率---mda 软件开发方式的革命
atitit.提升开发效率---mda 软件开发方式的革命 1. 软件开发方式的革命开发工具的抽象层次将再次提升 1 2. 应用框架和其实现相分离 2 3. 目前的问题模型和代码不同步 2 4. MD ...
shiny server SparkR web展示界面（一）
1. shiny server简介 shiny-server是一种可用把R 语言以web形式展示的服务,下面就讲讲如何在自己的服务器上构建Shiny Server.下一篇主要介绍如何集成sparkR后 ...
iOS开发-动态和静态FrameWork
开发中我们会使用到第三方的SDK,有的时候也会将整个系统的公用的功能的抽象出来成为FrameWork,我们只需要暴露对外的接口,使用者只需要调用接口,对于内部实现的过程不需要维护,可以以库的形式进行封 ...
iOS UICollectionView的实现
ios的UICollectionView并不能在iOS6之前的版本中使用,为了兼容之前的版本需要自定义UICollectionView.写完之后发现人家已经有开源了,下过来看了看发现我是用UIScro ...
【关于新版Cocos2dx/Cocos2d-JS】安装包和使用方式的变化
最近有读者反馈说,最新的Cocos2dx或者说2d-JS下载之后跟书本说的安装方式相差很大. 刚下载最新版3.9试了一下,其实用法还是没有变的. 新版把cocos2dx和cocos2d-js合并了,这 ...
TexturePacker压缩png的命令
压缩png效果最好的当然是TinyPNG这种神器了,不过一般情况下TexturePacker压缩出来的也基本上能达到效果. 你需要先安装TP(TexturePacker的简称,以下TP无特殊说明均指T ...
今天踩过的坑——structs和spring
struts 如果实现了CookiesAware了,还需要引用org.apache.struts2.interceptor.CookieInterceptor过滤器,否则拿不到值同时还要能看到这样的错 ...
IIS7 HTTPS 绑定主机头
IIS7下面默认HTTPS绑定是无法指定主机头的,但我们可以通过手工修改IIS配置来实现主机头绑定. 打开C:\Windows\system32\inetsrv\config\applicationH ...
Git教程学习(五)
14. 解决冲突 14.1. 场景当分支A和分支B在同一个文件上都有修改时会出现冲突.常见的情况是从master分支的基础上生成了新分支dev,然后在dev上进行了修改并add&commit ...
.NET通过async/await实现并行
如果可以并行可以大大提高性能,但在我们的使用中,不可能全是并行的也是要有线行操作,所以我们需要在业务逻辑层进行并行操作的护展: 数据访问层不变还是以前一样如下: public class UserDA ...

【PRML读书笔记-Chapter1-Introduction】1.6 Information Theory

熵

相对熵（Relative entropy）和互信息（mutual information）

概率论的版本

以概率论的名词，是个概率测度。函数换作实值随机变数（就纯数学而言，两者没有分别）。在空间上，任何函数相对于概率测度的积分就成了期望值。这不等式就说，若是任一凸函数，则。

互信息(mutual information)

【PRML读书笔记-Chapter1-Introduction】1.6 Information Theory的更多相关文章

随机推荐

热门专题