Entropy, relative entropy and mutual information
Entropy
\]
熵非负, 且当且仅当\(X\)确定性的时候为有最小值0, 即\(P(X=x_0)=1\).
Proof:
由\(\log\)的凹性可得
H(X)
& = -\sum_{x} p(x) \log p(x) \\
& = \sum_{x} p(x) \log \frac{1}{p(x)} \\
& \ge \log 1=0.
\end{array}
\]
Joint Entropy
\]
Conditional Entropy
H(Y|X)
&= - \mathbb{E}_{p(x)} [H(Y|X=x)] \\
&= - \sum_{x \in \mathcal{X}} p(x) H(Y|X=x) \\
&= - \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x)p(y|x) \log p(y|x) \\
&= - \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log p(y|x).
\end{array}
\]
注意 \(H(Y|X)\) 和 \(H(Y|X=x)\) 的区别.
Chain rule
\]
proof:
根据\(p(y|x)=\frac{p(x, y)}{p(x)}\)以及上面的推导可知:
H(Y|X)
&= H(X,Y) + \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log p(x) \\
&= H(X, Y) -H(X).
\end{array}
\]
推论:
\]
H(Y|X,Z)
&= \mathbb{E}_{x,z} [H(Y|x,z)] \\
&= -\sum_{x,z} p(x,z) p(y|x,z) \log p(y|x,z) \\
&= -\sum_{x, z} p(x, y, z) [\log p(x, y|z) - \log p(x|z)] \\
&= \mathbb{E}_{z} H(X, Y|z) - \mathbb{E}_{z} H(X|z) = H(X, Y|Z) - H(X|Z).
\end{array}
\]
Mutual Information
\]
\(I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = I(Y;X) = H(X) + H(Y) - H(X, Y) \ge 0\)
\(I(X, X) = H(X)\)
Relative Entropy
\]
Chain Rules
Chain Rule for Entropy
设\((X_1, X_2,\ldots, X_n) \sim p(x_1, x_2, \ldots, x_n)\):
\]
proof:
归纳法 + \(H(X, Y) = H(X) + H(Y|X)\).
Chain Rule for Mutual Information
Conditional Mutual Information
定义:
\]
性质:
\]
proof:
I(X_1, X_2, \ldots, X_n; Y)
& =H(X_1, \ldots, X_n) + H(Y) - H(X_1,\ldots, X_n;Y) \\
&= H(X_1,\ldots, X_{n-1}) + H(X_n|X_1,\ldots, X_{n-1}) + H(Y) - H(X_1, \ldots, X_n;Y) \\
&= I(X_1, X_2,\ldots, X_{n-1};Y) + H(X_n|X_1,\ldots, X_{n-1}) - H(X_n|X_1, \ldots, X_{n-1};Y) \\
&= I(X_1, X_2,\ldots, X_{n-1};Y) + I(X_n;Y|X_1,\ldots, X_{n-1}). \\
\end{array}
\]
Chain Rule for Relative Entropy
定义:
D(p(y|x)\|q(y|x))
&:= \mathbb{E}_{p(x, y)} [\log \frac{p(Y| X)}{q(Y|X)}] \\
&= \sum_x p(x) \sum_y p(y|x) \log \frac{p(y|x)}{q(y|x)}.
\end{array}
\]
性质:
\]
proof:
D(p(x, y)\| q(x, y))
&= \sum_{x, y} p(x, y) \log \frac{p(x, y)}{q(x, y)} \\
&= \sum_{x, y} p(x, y) \log \frac{p(y|x)p(x)}{q(y|x)q(x)} \\
&= \sum_{x, y} [p(x, y) (\log \frac{p(y|x)}{q(y|x)} + \log \frac{p(x)}{q(x)})]\\
&= D(p(x)\|q(x)) + D(p(y|x)\|q(y|x)).
\end{array}
\]
补充:
\]
故, 当\(p(x) = q(x)\)的时候, 我们可以得到
\]
\(D(p(y|x)\|q(y|x))=D(p(x, y)\| p(x)q(y|x))\)
\(D(p(x_1, x_2,\ldots, x_n)\| q(x_1, x_2,\ldots, x_m)) = \sum_{i=1}^n D(p(x_i|x_{i-1}, \ldots, x_1)\|q(x_i| x_{i-1}, \ldots, x_1))\)
\(D(p(y)\| q(y)) \le D(p(y|x)\|q(y|x))\), \(q(x)=p(x)\).
1, 2, 3的证明都可以通过上面的稍作变换得到.
Jensen's Inequality
如果\(f\)是凸函数, 则
\]
Properties
- \(D(p\|q) \ge 0\) 当且仅当\(p=q\)取等号.
- \(I(X; Y) \ge 0\)当且仅当\(X, Y\)独立取等号.
- \(D(p(y|x)\|q(y|x)) \ge 0\) (根据上面的性质), 当且仅当\(p(y|x) = q(y|x)\)取等号, \(p(x) > 0\).
- \(I(X; Y|Z) \ge 0\), 当且仅当\(X, Y\)条件独立.
- \(H(X|Y)\le H(X)\), 当且仅当\(X, Y\)独立等号成立.
- \(H(X_1, X_2, \ldots, X_n)\le \sum_{i=1}^n H(X_i)\), 当且仅当所有变量独立等号成立.
Log Sum Inequality
- \(D(p\|q)\) 关于\((p, q)\)为凸函数, 即\(\forall 0\le \lambda \le 1\):
\[D(\lambda p_1 + (1-\lambda)p_2\| \lambda q_1 + (1-\lambda)q_2) \le \lambda D(p_1\|q_1) + (1-\lambda)D(p_2 \| q_2).
\]
此部分的证明, 一方面可以通过\(p\log\frac{p}{q}\)的凸性得到, 更有趣的证明是, 构造一个新的联合分布
\]
即
p(c=0)=q(c=0)=\lambda, p(c=1) = q(c=1) = 1-\lambda.
\]
并注意到\(D(p(y)\| q(y)) \le D(p(y|x)\|q(y|x))\).
- \(H(X) = -\sum_{x \in \mathcal{X}} p(x) \log p(x)\)是关于\(p\)的凹函数.
- \(I(X, Y) = \sum_{x, y} p(y|x)p(x) \log \frac{p(y|x)}{p(y)}\), 当固定\(p(y|x)\)的时候是关于\(p(x)\)的凹函数, 当固定\(p(x)\)的时候, 是关于\(p(y|x)\)的凸函数.
仅仅证明后半部分, 任给\(p_1(y|x), p_2(y|x)\), 由于\(p(x)\)固定, 故\(\forall 0 \le \lambda \le 1\):
p(y): = \sum_x p(x, y) = \lambda \sum_x p_1(x, y) + (1-\lambda) \sum_{x} p_2(x, y) \\
q(x, y):= p(x)p(y) = \sum_x p(x, y) = \lambda p(x) \sum_x p_1(x, y) + (1-\lambda) p(x)\sum_{x} p_2(x, y) =: \lambda q_1(x, y) + (1-\lambda)q_2(x, y).\\
\]
又
\]
因为KL散度关于\((p, q)\)是凸函数, 所以\(I\)关于\(p(y|x)\)如此.
Data-Processing Inequality
数据\(X \rightarrow Y \rightarrow Z\), 即\(P(X, Y,Z) = P(X)P(Y|X)P(Z|Y)\) 比如\(Y=f(X), Z = g(Y)\).
\]
又
I(X;Y|Z) = \sum_{x,y,z} p(x,y,z) \log \frac{p(x|y)}{p(x|z)}\ge 0.
\]
故
I(X;Y|Z) \le I(X;Y).
\]
Sufficient Statistics
Statistics and Mutual Information
一族概率分布\(\{f_{\theta(x)}\}\)
\(X \sim f_{\theta}(x)\), \(T(X)\)为其统计量, 则
\[\theta \rightarrow X \rightarrow T(X)
\]故
\[I(\theta;X) \ge I(\theta;T(X))
\]
Sufficient Statistics and Compression
充分统计量定义: 一个函数\(T(X)\)被称之为一族概率分布\(\{f_{\theta}(x)\}\)的充分统计量, 如果给定\(T(X)=t\)时\(X\)的条件分布与\(\theta\)无关, 即
\]
此时, \(I(\theta;T(X))= I(\theta;X)\).
最小充分统计量定义: 如果一个充分统计量\(T(X)\)与其余的一切关于\(\{f_{\theta}(x)\}\)的充分统计量\(U(X)\)满足
\]
Entropy, relative entropy and mutual information的更多相关文章
- 论文解读( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》
论文信息 论文标题:Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximiz ...
- 互信息(Mutual Information)
本文根据以下参考资料进行整理: 1.维基百科:https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF 2.新浪博客:http://blog. ...
- Mutual information and Normalized Mutual information 互信息和标准化互信息
实验室最近用到nmi( Normalized Mutual information )评价聚类效果,在网上找了一下这个算法的实现,发现满意的不多. 浙江大学蔡登教授有一个,http://www.zju ...
- 泡泡一分钟:Robust and Fast 3D Scan Alignment Using Mutual Information
Robust and Fast 3D Scan Alignment Using Mutual Information 使用互信息进行稳健快速的三维扫描对准 https://arxiv.org/pdf/ ...
- Computer Vision_33_SIFT:A novel coarse-to-fine scheme for automatic image registration based on SIFT and mutual information——2014
此部分是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面.对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献.有一些刚刚出版的 ...
- Image Processing and Analysis_15_Image Registration:Multi-modal volume registration by maximization of mutual information——1996
此主要讨论图像处理与分析.虽然计算机视觉部分的有些内容比如特 征提取等也可以归结到图像分析中来,但鉴于它们与计算机视觉的紧密联系,以 及它们的出处,没有把它们纳入到图像处理与分析中来.同样,这里面也有 ...
- Point-wise Mutual Information
Point-wise Mutual Information (Yao, et al 2019) reclaimed a clear description of Point-wise Mutual I ...
- 双目立体匹配经典算法之Semi-Global Matching(SGM)概述:匹配代价计算之互信息(Mutual Information,MI)
半全局立体匹配算法Semi-Global Matching,SGM由学者Hirschmüller在2005年所提出1,提出的背景是一方面高效率的局部算法由于所基于的局部窗口视差相同的假设在很多情况 ...
- Mutual Information
Mutal Information, MI, 中文名称:互信息. 用于描述两个概率分布的相似/相关程度. 常用于衡量两个不同聚类算法在同一个数据集的聚类结果的相似性/共享的信息量. 给定两种聚类结果\ ...
随机推荐
- Spark集群环境搭建——部署Spark集群
在前面我们已经准备了三台服务器,并做好初始化,配置好jdk与免密登录等.并且已经安装好了hadoop集群. 如果还没有配置好的,参考我前面两篇博客: Spark集群环境搭建--服务器环境初始化:htt ...
- Java 性能优化的 50 个细节
在JAVA程序中,性能问题的大部分原因并不在于JAVA语言,而是程序本身.养成良好的编码习惯非常重要,能够显著地提升程序性能. #尽量在合适的场合使用单例 使用单例可以减轻加载的负担,缩短加载的时间, ...
- centos7安装Docker详细步骤(无坑版教程)
一.安装前必读 在安装 Docker 之前,先说一下配置,我这里是Centos7 Linux 内核:官方建议 3.10 以上,3.8以上貌似也可. 注意:本文的命令使用的是 root 用户登录执行,不 ...
- 【编程思想】【设计模式】【行为模式Behavioral】备忘录模式Memento
Python版 https://github.com/faif/python-patterns/blob/master/behavioral/memento.py #!/usr/bin/env pyt ...
- Linux 下使用rtcwake实现定时休眠和唤醒设备
查看是否安装rtcwake whereis rtcwake rtcwake: /usr/sbin/rtcwake /usr/share/man/man8/rtcwake.8.gz 查看rtcwake帮 ...
- 用户信息系统_serviceImpl
package com.hopetesting.service.impl;import com.hopetesting.dao.UserDao;import com.hopetesting.dao.i ...
- C#获取Windows10屏幕的缩放比例
现在1920x1080以上分辨率的高分屏电脑渐渐普及了.我们会在Windows的显示设置里看到缩放比例的设置.在Windows桌面客户端的开发中,有时会想要精确计算窗口的面积或位置.然而在默认情况下, ...
- 7、Redis五大数据类型---集合(Set)
一.集合(Set)简介 Set是string类型的无序集合.集合成员是唯一的,这就意味着集合中不能出现重复的数据. Redis 中 集合是通过哈希表实现的,所以添加,删除,查找的复杂度都是O(1). ...
- 第43篇-JNI引用的管理(2)
之前我们已经介绍了JNIHandleBlock,但是没有具体介绍JNIHandleBlock中存储的句柄,这一篇我们将详细介绍对这些句柄的操作. JNI句柄分为两种,全局和局部对象引用: (1)大部分 ...
- centos部署配置gogs代码仓库
目录 一.简介 二.部署 三.网页配置 一.简介 Gogs的目标是打造一个最简单.最快速和最轻松的方式搭建自助Git服务.使用Go语言开发使得Gogs能够通过独立的二进制分发,并且支持Go语言支持的 ...