最大熵与最大似然,以及KL距离。
DNN中最常使用的离散数值优化目标,莫过于交差熵。两个分布p,q的交差熵,与KL距离实际上是同一回事。
$-\sum plog(q)=D_{KL}(p\shortparallel q)-\sum plog(p)$
交差熵实际上就是KL距离减去熵。
监督学习时,p是目标的分布,无法被改变,能通过训练改变的只有拟合出的分布q,所以loss需要最小化交差熵的时候,实际上就是在最小化KL距离。
熟悉KL距离定义的话,就知道交差熵实际上是要求p与q分布尽量接近,这样就能使用相近的bit数来编码信息。
前面的文章已经论证了分类问题中,最大熵必然导致玻尔兹曼分布。
这里补充一点,关于最大熵与最大似然在分类问题中的等价证明。
假设N个样本在K个分类下,当N足够大,使nk遵循真实概率分布pk,既$n_{k}/N\approx p_{k}$,且N个样本相互独立。
对于整个系统而言,最大似然里的联合概率$p(x_{1},x_{2}\text{......}x_{N})=\prod\limits _{i=1}^{N}p(x_{i})=\prod\limits _{k=1}^{K}p(x=k)^{n_{k}}$
那么$log(p)=\sum\limits _{k=1}^{K}n_{k}log(p(k))=N\sum\limits _{k=1}^{K}p_{k}log(p_{k})=-NH$
等等,最大似然与熵虽然关联了起来,但是有个负号在前面,最大似然意味着平均每个样本的熵被最小化?这明显是不符合常理的。
问题的根本其实在于,最大熵与最大似然其实是作用在两个不同分布上的操作。
先说最大似然,这个操作是在训练模型的时候,更新权重使用梯度下降时,将预测值y_hat的联合概率进行最大似然,既最大化$log(p(\hat{\boldsymbol{y}}))$,所以需要$\frac{\partial log(p(\hat{\boldsymbol{y}}))}{\partial w}=0$
然后最大熵的操作,是针对真实分布p(y),而非预测目标p(y_hat)的,既最大化$H(p(\boldsymbol{y}))$。因为更新权重无法影响到真实分布p(y),所以$\frac{\partial H(Y)}{\partial w}$这类的操作是无意义的。
最大熵的作用,更倾向于描述一个真实分布的样本,其内在遵循的一个客观规律,既热力学第二定律。
那么,上面分类模型里的关联似然与熵负号,又代表或暗示了什么呢?
我们知道,随着训练的进行,预测分布Y_hat与Y的交互信息是要逐渐增加的,而交互信息与熵又存在这样的关系
$I(\hat{Y};Y)=H(Y)-H(Y\mid\hat{Y})$
减小的不是$H(Y)$,因为无论怎么训练权重参数,它都不受影响。
真正减少的是$H(Y\mid\hat{Y})$,通过不断减少$H(Y\mid\hat{Y})$才能使预测值更接近真实值。
在给定预测值的计算方法$p(\hat{y}=k)=n_{k}/N$之后,我们已知先验分布的p_k后,未知的真实分布Y的混乱程度实际上是降低了。这也很符合直观的理解,我们已知的信息越多,能预测出的分布与真实分布就越接近,真实分布Y的混乱度既熵也就越低,两个分布的KL距离也就越近。
所以,在我们训练机器学习模型,使似然函数逐渐趋向最大化时,给定训练获得的知识$\hat{Y}$之后描述真实分布的熵$H(Y\mid\hat{Y})$就减小了。
$log(p)=-NH(Y\mid\hat{Y})$
最大熵与最大似然,以及KL距离。的更多相关文章
- (转载)KL距离,Kullback-Leibler Divergence
转自:KL距离,Kullback-Leibler Divergence KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对 ...
- [NLP自然语言处理]计算熵和KL距离,java实现汉字和英文单词的识别,UTF8变长字符读取
算法任务: 1. 给定一个文件,统计这个文件中所有字符的相对频率(相对频率就是这些字符出现的概率——该字符出现次数除以字符总个数,并计算该文件的熵). 2. 给定另外一个文件,按上述同样的方法计算字符 ...
- KL距离,Kullback-Leibler Divergence
http://www.cnblogs.com/ywl925/p/3554502.html http://www.cnblogs.com/hxsyl/p/4910218.html http://blog ...
- 各种形式的熵函数,KL距离
自信息量I(x)=-log(p(x)),其他依次类推. 离散变量x的熵H(x)=E(I(x))=-$\sum\limits_{x}{p(x)lnp(x)}$ 连续变量x的微分熵H(x)=E(I(x)) ...
- 【转载】 KL距离(相对熵)
原文地址: https://www.cnblogs.com/nlpowen/p/3620470.html ----------------------------------------------- ...
- KL距离(相对熵)
KL距离,是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy).它衡量的是相同事件空间里的两个概率分 ...
- 深度学习(六十六)生成模型、最大化似然、KL散度
- KL散度、JS散度、Wasserstein距离
1. KL散度 KL散度又称为相对熵,信息散度,信息增益.KL散度是是两个概率分布 $P$ 和 $Q$ 之间差别的非对称性的度量. KL散度是用来 度量使用基于 $Q$ 的编码来编码来自 $P$ 的 ...
- PRML读书会第十章 Approximate Inference(近似推断,变分推断,KL散度,平均场, Mean Field )
主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:02:04 我们在前面看到,概率推断的核心任务就是计算某分布下的某个函数的期望.或者计算边缘概率分布.条件 ...
随机推荐
- Ajax学习笔记——基本原理
Ajax(Asynchronous JavaScript + XML)不是语音,不是框架,也不能算是一种技术,而是一种模式.通过这种模式实现不重新加载整个页面的情况下,与服务器交换数据并更新部分网页内 ...
- 嵌入式linux——点亮led灯(二)
刚才在jz2440板子上写了一个点亮中间led的程序,前前后后十几分钟才好.最终代码 本节内容: 1. 汇编点灯 2. C点灯 3. 参数选择点灯 4. 按键点灯 1. 汇编点灯 .text .glo ...
- Split CSV/TXT file
void Main(){ var path = @"c:\sourceGit\speciesLatLon.txt"; var inputLines = File.ReadAllLi ...
- swoole结合支持thinkphp 5.0版本
安装swoole pecl install swoole 修改PHP配置文件php.ini加入 extension=swoole.so 有可能不需要人工去加,安装时自动加入进来了, 查看swoole扩 ...
- 在CentOS7中安装scala-2.11.12
从官网下载scala的相关版本 https://www.scala-lang.org/download/2.11.12.html 解压安装包 tar zxf scala-.tgz -C /usr/sc ...
- Django中manger/QuerySet类与mysql数据库的查询
Django中的单表操作 1.精确查询 #查询的结果返回是容器Query Set的函数(Query Set模型类)# 1. all() 查询的所有的符合条件的结果,支持正向索引,支持索引切片,不 ...
- 教师派day1
终于决定好要冲刺了. 昨天开了一个短会,又详细分配了一下任务. 问题是:我的android装了好久好久才可以用~ 今天要把android里的各个文件.控件搞清楚.
- 微信小程序创建一个新项目
1. 新建一个文件夹. 2. 打开微信小程序开发工具,导入新建文件夹:然后输入创建的appId:会自动生成一个project.config.json,打开这个文件,会看到appid这个字段. 3.可以 ...
- 云笔记项目-Spring事务学习-传播MANDATORY
接下来测试事务传播属性MANDATORY Service层 所有Service层实现类都设置事务传播属性为MANDATORY. LayerT层代码 package LayerT; import jav ...
- rancher2.1.7 +jenkins +harbor 自动容器CI系统(通过rancher命令行)
jenkins脚本执行示例: //环境定义与 cd $WORKSPACEmodule=news-usercd $module/case $deploy in deploy) //发布模块 //编译/o ...