KL散度(Kullback-Leibler

KL散度(Kullback-Leibler_divergence)

一. 概念

KL-divergence，俗称KL距离，常用来衡量两个概率分布的距离。

根据shannon的信息论，给定一个字符集的概率分布，我们可以设计一种编码，使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X，对x∈X，其出现概率为P(x)，那么其最优编码平均需要的比特数等于这个字符集的熵：

H(X)=∑_x∈XP(x)log[1/P(x)]

在同样的字符集上，假设存在另一个概率分布Q(X)。如果用概率分布P(X)的最优编码（即字符x的编码长度等于log[1/P(x)]），来为符合分布Q(X)的字符编码，那么表示这些字符就会比理想情况多用一些比特数。KL-divergence就是用来衡量这种情况下平均每个字符多用的比特数，因此可以用来衡量两个分布的距离。即：

D_KL(Q||P)=∑_x∈XQ(x)[log(1/P(x))] - ∑_x∈XQ(x)[log[1/Q(x)]]=∑_x∈XQ(x)log[Q(x)/P(x)]

由于-log(u)是凸函数，因此有下面的不等式

D_KL(Q||P) = -∑_x∈XQ(x)log[P(x)/Q(x)] = E[-logP(x)/Q(x)] ≥ -logE[P(x)/Q(x)] = -log∑_x∈XQ(x)P(x)/Q(x) = 0

即KL-divergence始终是大于等于0的。当且仅当两分布相同时，KL-divergence等于0。

二. 例子

下面举一个实际的例子吧：比如有四个类别，一个方法A得到四个类别的概率分别是0.1,0.2,0.3,0.4。另一种方法B（或者说是事实情况）是得到四个类别的概率分别是0.4,0.3,0.2,0.1,那么这两个分布的KL-Distance(A,B)=0.1*log(0.1/0.4)+0.2*log(0.2/0.3)+0.3*log(0.3/0.2)+0.4*log(0.4/0.1)

这个里面有正的，有负的，可以证明KL-Distance()>=0.

从上面可以看出， KL散度是不对称的。即KL-Distance(A,B)!=KL-Distance(B,A)

KL散度是不对称的，当然，如果希望把它变对称，
Ds(p1, p2) = [D(p1, p2) + D(p2, p1)] / 2

三. 应用于推荐系统的一个例子

在使用LDA(Latent Dirichlet Allocation)计算物品的内容相似度时，我们可以先计算出物品在话题上的分布，然后利用两个物品的话题分布计算物品的相似度。比如，如果两个物品的话题分布相似，则认为两个物品具有较高的相似度，反之则认为两个物品的相似度较低。计算分布的相似度可以利用KL散度来计算：

D_KL(p||q)=∑_i∈Xp(i)ln(p(i)/q(i),其中p和q是两个分布，KL散度越大说明分布的相似度越低。

KL散度(Kullback-Leibler_divergence)的更多相关文章

KL散度(Kullback–Leibler divergence)
KL散度是度量两个分布之间差异的函数.在各种变分方法中,都有它的身影. 转自:https://zhuanlan.zhihu.com/p/22464760 一维高斯分布的KL散度多维高斯分布的KL散度 ...
KL散度的理解（GAN网络的优化）
原文地址Count Bayesie 这篇文章是博客Count Bayesie上的文章Kullback-Leibler Divergence Explained 的学习笔记,原文对 KL散度的概念诠释 ...
KL散度与JS散度
1.KL散度 KL散度( Kullback–Leibler divergence)是描述两个概率分布P和Q差异的一种测度.对于两个概率分布P.Q,二者越相似,KL散度越小. KL散度的性质:P表示真实 ...
KL散度非负性证明
1 KL散度 KL散度(Kullback–Leibler divergence) 定义如下: $D_{K L}=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \t ...
paper 23 ：Kullback–Leibler divergence KL散度（2）
Kullback–Leibler divergence KL散度 In probability theory and information theory, the Kullback–Leibler ...
【原】浅谈KL散度（相对熵）在用户画像中的应用
最近做用户画像,用到了KL散度,发现效果还是不错的,现跟大家分享一下,为了文章的易读性,不具体讲公式的计算,主要讲应用,不过公式也不复杂,具体可以看链接. 首先先介绍一下KL散度是啥.KL散度全称Ku ...
浅谈KL散度
一.第一种理解相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence) ...
ELBO 与 KL散度
浅谈KL散度一.第一种理解相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information dive ...
交叉熵cross entropy和相对熵（kl散度）
交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量真实分布p与当前训练得到的概率分布q有多么大的差异. 相对熵(relativ ...
python 3计算KL散度（KL Divergence）
KL DivergenceKL( Kullback–Leibler) Divergence中文译作KL散度,从信息论角度来讲,这个指标就是信息增益(Information Gain)或相对熵(Rela ...

随机推荐

20145324 《Java程序设计》第8周学习总结
20145324 <Java程序设计>第8周学习总结教材学习内容总结第十四章 1.NIO使用频道来衔接数据节点,可以设定缓冲区容量,在缓冲区中对感兴趣的数据区块进行标记,提供clear ...
Swift进阶之路（一）——单例模式、属性传值、代理传值、闭包传值
一.单例模式单例模式是设计模式中最简单的一种,甚至有些模式大师都不称其为模式,称其为一种实现技巧,因为设计模式讲究对象之间的关系的抽象,而单例模式只有自己一个对象. 关于单例,有三个重要的准则需要牢 ...
4196: [Noi2015]软件包管理器
Time Limit: 10 Sec Memory Limit: 512 MBSubmit: 412 Solved: 251[Submit][Status][Discuss] Descriptio ...
git重命名分支名
git branch -m old_branch_name new_branch_name
linux下安装sphinx
1.下载sphinx源码包上面截图的这个网址复制链接地址在putty终端使用:wget http://sphinxsearch.com/files/sphinx-2.3.1-beta.t ...
防止xss(脚本攻击)的方法之过滤器
一什么是脚本注入概念我就不说了直接百度一份 XSS是一种经常出现在web应用中的计算机安全漏洞,它允许恶意web用户将代码植入到提供给其它用户使用的页面中.比如这些代码包括HTML代码和客户端 ...
初入spring boot（七）Spring Data JPA
Spring Data JPA通过提供基于JPA的Repository极大地减少JPA作为数据访问方案的代码量. 1.定义数据访问层使用Spring Data JPA建立数据访问层十分简单,只需定义 ...
简单描述DataAdapter、DataReader、DataSet、Datatable对比
一.存储的对比 DataReader 从数据库中检索[只读]数据流,存在客户端网络缓冲区,直到Read方法访问它们. DataAdapter 表示一组SQL命令和数据库连接,用于填充DateSet和[ ...
js 冒泡型事件
java23种设计模式之二: 单例设计模式(6种写法)
目的:在某些业务场景中,我们需要某个类的实例对象的只能有一个,因此我们需要创建一些单例对象. 本文共有6种写法,仅供参考 1.饿汉式优点: 在多线程情况下,该方法创建的单例是线程安全的(立即加载) ...

KL散度(Kullback-Leibler_divergence)

KL散度(Kullback-Leibler_divergence)的更多相关文章

随机推荐

热门专题