机器学习：Kullback-Leibler Divergence （KL 散度）

今天，我们介绍机器学习里非常常用的一个概念，KL 散度，这是一个用来衡量两个概率分布的相似性的一个度量指标。我们知道，现实世界里的任何观察都可以看成表示成信息和数据，一般来说，我们无法获取数据的总体，我们只能拿到数据的部分样本，根据数据的部分样本，我们会对数据的整体做一个近似的估计，而数据整体本身有一个真实的分布（我们可能永远无法知道），那么近似估计的概率分布和数据整体真实的概率分布的相似度，或者说差异程度，可以用 KL 散度来表示。

KL 散度，最早是从信息论里演化而来的，所以在介绍 KL 散度之前，我们要先介绍一下信息熵。信息熵的定义如下：

H=−∑i=1Np(xi)log⁡p(xi)" role="presentation">H=−∑i=1Np(xi)logp(xi)H=−∑i=1Np(xi)log⁡p(xi)

p(xi)" role="presentation" style="position: relative;">p(xi)p(xi) 表示事件 xi" role="presentation" style="position: relative;">xixi 发生的概率，信息熵其实反映的就是要表示一个概率分布需要的平均信息量。

在信息熵的基础上，我们定义 KL 散度为：

DKL(p||q)=∑i=1Np(xi)⋅(log⁡p(xi)−log⁡(q(xi))" role="presentation">DKL(p||q)=∑i=1Np(xi)⋅(logp(xi)−log(q(xi))DKL(p||q)=∑i=1Np(xi)⋅(log⁡p(xi)−log⁡(q(xi))

或者表示成下面这种形式：

DKL(p||q)=∑i=1Np(xi)⋅log⁡p(xi)q(xi)" role="presentation">DKL(p||q)=∑i=1Np(xi)⋅logp(xi)q(xi)DKL(p||q)=∑i=1Np(xi)⋅log⁡p(xi)q(xi)

DKL(p||q)" role="presentation" style="position: relative;">DKL(p||q)DKL(p||q) 表示的就是概率 q" role="presentation" style="position: relative;">qq 与概率 p" role="presentation" style="position: relative;">pp 之间的差异，很显然，散度越小，说明概率 q" role="presentation" style="position: relative;">qq 与概率 p" role="presentation" style="position: relative;">pp 之间越接近，那么估计的概率分布于真实的概率分布也就越接近。

KL 散度可以帮助我们选择最优的参数，比如 p(x)" role="presentation" style="position: relative;">p(x)p(x) 是我们需要估计的一个未知的分布，我们无法直接得知 p(x)" role="presentation" style="position: relative;">p(x)p(x) 的分布，不过我们可以建立一个分布 q(x|θ)" role="presentation" style="position: relative;">q(x|θ)q(x|θ) 去估计 p(x)" role="presentation" style="position: relative;">p(x)p(x)，为了确定参数 θ" role="presentation" style="position: relative;">θθ，虽然我们无法得知 p(x)" role="presentation" style="position: relative;">p(x)p(x) 的真实分布，但可以利用采样的方法，从 p(x)" role="presentation" style="position: relative;">p(x)p(x) 中采样 N" role="presentation" style="position: relative;">NN 个样本，构建如下的目标函数：

DKL(p||q)=∑i=1N{log⁡p(xi)−log⁡q(xi|θ)}" role="presentation">DKL(p||q)=∑i=1N{logp(xi)−logq(xi|θ)}DKL(p||q)=∑i=1N{log⁡p(xi)−log⁡q(xi|θ)}

因为我们要预估的是参数 θ" role="presentation" style="position: relative;">θθ，上面的第一项 log⁡p(xi)" role="presentation" style="position: relative;">logp(xi)log⁡p(xi) 与参数 θ" role="presentation" style="position: relative;">θθ 无关，所以我们要优化的其实是 −log⁡q(xi|θ)" role="presentation" style="position: relative;">−logq(xi|θ)−log⁡q(xi|θ)，而这个就是我们熟悉的最大似然估计。

机器学习：Kullback-Leibler Divergence （KL 散度）的更多相关文章

paper 23 ：Kullback–Leibler divergence KL散度（2）
Kullback–Leibler divergence KL散度 In probability theory and information theory, the Kullback–Leibler ...
KL散度(Kullback–Leibler divergence)
KL散度是度量两个分布之间差异的函数.在各种变分方法中,都有它的身影. 转自:https://zhuanlan.zhihu.com/p/22464760 一维高斯分布的KL散度多维高斯分布的KL散度 ...
交叉熵cross entropy和相对熵（kl散度）
交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量真实分布p与当前训练得到的概率分布q有多么大的差异. 相对熵(relativ ...
【原】浅谈KL散度（相对熵）在用户画像中的应用
最近做用户画像,用到了KL散度,发现效果还是不错的,现跟大家分享一下,为了文章的易读性,不具体讲公式的计算,主要讲应用,不过公式也不复杂,具体可以看链接. 首先先介绍一下KL散度是啥.KL散度全称Ku ...
浅谈KL散度
一.第一种理解相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence) ...
ELBO 与 KL散度
浅谈KL散度一.第一种理解相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information dive ...
KL散度的理解（GAN网络的优化）
原文地址Count Bayesie 这篇文章是博客Count Bayesie上的文章Kullback-Leibler Divergence Explained 的学习笔记,原文对 KL散度的概念诠释 ...
KL散度与JS散度
1.KL散度 KL散度( Kullback–Leibler divergence)是描述两个概率分布P和Q差异的一种测度.对于两个概率分布P.Q,二者越相似,KL散度越小. KL散度的性质:P表示真实 ...
KL散度非负性证明
1 KL散度 KL散度(Kullback–Leibler divergence) 定义如下: $D_{K L}=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \t ...
两个多维高斯分布之间的KL散度推导
在深度学习中,我们通常对模型进行抽样并计算与真实样本之间的损失,来估计模型分布与真实分布之间的差异.并且损失可以定义得很简单,比如二范数即可.但是对于已知参数的两个确定分布之间的差异,我们就要通过推导 ...

随机推荐

Windows下Python3.6安装第三方模块
一安装pip 一般需要用pip进行安装,不过我安装p3.6的时候pip已经有了. 如果没有的话,可以用在以下http://www.lfd.uci.edu/~gohlke/pythonlibs/#pi ...
QString 的用法
C++语言提供了两种字符串的实现:C风格的字符串,以'\0‘结尾;std::string,即标准模版库中的类.Qt则提供了自己的字符串实现:QString,QString不用担心内存分配以及关于'\0 ...
SpringMVC+HibernateValidator，配置在properties文件中的错误信息回显前端页面出现中文乱码
问题: 后台在springMVC中使用hibernate-validator做参数校验的时候(validator具体使用方法见GOOGLE),用properties文件配置了校验失败的错误信息.发现回 ...
select2中的ajax请求
下面介绍select2.js的方法,已经整理好文件,可以直接下载使用: 实现效果如下: 引用文件:select2.min.css jquery.js select2.full.min.js <h ...
MySQL修改版本号教程
处理扫描器扫出的漏洞,基本有四种方法:一是升级软件包到新版本(包括打补丁和整个替换升级),二是修改banner配置项(包括禁用banner和修改banner内容),三是添加白名单(包括主机防火墙和软件 ...
find中的-exec参数
1.find中的-exec参数在当前目录下(包含子目录),查找所有txt文件并找出含有字符串"bin"的行 find ./ -name "*.txt" -ex ...
spring事务管理(详解和实例)
原文地址: 参考地址:https://blog.csdn.net/yuanlaishini2010/article/details/45792069 写这篇博客之前我首先读了<Spring in ...
idea中deBug方法
1 2设置controller层断点鼠标左键点击,断点在哪里,就会deBug到哪里 3刷新页面 4查看 5service层设置断点 6 7查看返回信息是否错误
Win10系列：JavaScript 项目模板中的文件和项模板文件
通过上面内容的学习,相信读者已经对各种项目模板和项模板有了大致的了解,本节将进一步介绍项目模板中默认包含的项目文件以及项模板文件,首先讲解这些文件中的初始内容以及作用,然后介绍在一个页面中如何添加控件 ...
day1 计算机硬件基础
CPU包括运算符和逻辑符储存器包括内存和硬盘 7200转的机械硬盘一般找到想要的数据需要9毫秒的时间 4+5 5毫秒的时间是磁头到磁盘轨道 4毫秒是平均开始查找想要的数据到找到的 ...

机器学习：Kullback-Leibler Divergence （KL 散度）

机器学习：Kullback-Leibler Divergence （KL 散度）的更多相关文章

随机推荐

热门专题