从信息论的角度分析DNN的工作原理
在前面的文章里,使用神经网络的任意函数拟合性结合了一点黎曼几何的坐标系变化的知识,解释了神经网络是怎样根据输入x,计算出每个分类下的能量Ei(x)的,再之后使用能量模型推算出了概率,从而展示了理论上可以使用DNN完成一个经典的分类问题。
然而这种解释只是最基本的可行性解释,并没有解答下列几个在训练时比较关键的问题:
- DNN的层数以及每层的神经元个数究竟影响了哪些能够观测到的训练属性(除了函数的拟合性之外)?这些影响是怎么产生的?
- 为什么训练收敛速度会变慢?
- 为什么收敛后继续训练可能导致overfitting
- 理论上DNN的权重参数数量非常大,导致所需的样本数量也会非常大才能避免过拟合,但是实际上在较小的样本集上,DNN也能训练收敛,并且结合early stop方法也可以达到不错的泛化效果,这是为什么?
- Dropout能够提升泛化性的原因
很多训练过程中出现的现象,以及网络结构会如何影响训练过程,这些问题都需要使用信息瓶颈理论来进行解读。
接下来的几篇文章,会着重探讨DNN是怎样高效地达到它的既定目标的,而不仅仅是证明DNN可以达到这些目标。
通过解读训练过程中每一层特征层包含的信息量变化,或许可以帮助解释DNN的黑盒。
首先需要介绍几个重要的概念:
交互信息(Mutual Information):
$I(X,Y)=D_{KL}\left [ p(x,y)||p(x)p(y) \right ]$
其中KL距离的定义是:假如使用分布q(x)来代替分布p(x)用来描述随机变量X (注:x可以看做X离散化后采样得到的结果),所需的bit数的预期值。
$D_{KL}\left(p(x)\parallel q(x)\right)=\underset{x\in X}{\sum}p(x)log\frac{p(x)}{q(x)}\geqslant0$
由交互信息以及KL距离的定义,可得:
$I(X;Y)=\underset{x\in X}{\sum}\underset{y\in Y}{\sum}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$
$=\underset{x,y}{\sum}p(x,y)log\frac{p(x,y)}{p(y)}-\underset{x,y}{\sum}p(x,y)logp(x)$
$=\underset{y}{\sum}p(y)\left(\underset{x}{\sum}p(x\mid y)logp(x\mid y)\right)-\underset{x}{\sum}logp(x)\underset{y}{\sum}p(x,y)$
$=-\underset{y}{\sum}p(y)H(X\mid y)-\sum\limits _{x}p(x)logp(x)$
$=-H(X\mid Y)+H(X)$
可以看出随机变量X与Y的交互信息实际上就是 描述X所需的bit数 减去 已知Y的情况下,还需要额外的用来描述X的bit数。当X与Y的交互信息越多,已知Y时还需要用来描述X的bit数也就越少,X与Y也就越接近。极限情况下当X=Y时,交互信息取最大值,等于H(X)。
另外也注意到交互信息满足对称交换:I(X;Y)=I(Y;X),这个可以自行验证。
泛化误差(generalization error):
根据霍夫丁不等式:
$\mathrm{P}\left(\left|E\left[y\right]-\frac{1}{m}\sum_{i=1}^{m}y_{i}\right|>\epsilon\right)\leqslant2\exp\left(\frac{-2m\epsilon^{2}}{\left(b-a\right)^{2}}\right)$
我们希望回归预测的值R(y)=E[y]=真实预期
采样样本能够计算出的预期 Remp(y)=$\frac{1}{m}\sum_{i=1}^{m}y_{i}$
不止是最终输出层y存在泛化误差,实际上神经网络里任意一层特征都存在泛化误差,所以避免歧义,使用h来代替y,H代替Y,这样方便我们考虑DNN中的任意一层。
b,a是h值的上下限,这里为了简单,取b-a=1,既每一层特征值都被归一化了。
考虑最坏情况下h可能导致的泛化误差上限(左边),与所有情况下泛化误差的总和(右边),满足以下公式:
$\mathrm{P}\left(\underset{h\in H}{sup}|R(h)-R_{emp}(h)|>\epsilon\right)\leqslant\sum\limits _{h\in H}\mathrm{P}\left(|R(h)-R_{emp}(h)|\geqslant\epsilon\right)$
带入霍夫丁不等式得到
$\mathrm{P}\left(\underset{h\in H}{sup}|R(h)-R_{emp}(h)|>\epsilon\right)\leqslant2|H|\exp\left(-2m\epsilon^{2}\right)=\delta$
其中|H|代表所有可能的h取值的数量,既集合H的大小。
当$\epsilon$更大时,有更小概率$\delta$出现泛化误差 R(h)-Remp(h)在改变x时的最坏情况取值大于门槛$\epsilon$,我们也就有更高置信度 p=1 - $\delta$ 来声明无论h取任何值时都满足 R(h)-Remp(h) < $\epsilon$
重新排列$\delta$与$\epsilon$:
$\epsilon=\sqrt{\frac{ln|H|+ln(2/\delta)}{2m}}$
所以
$R(h)-R_{emp}(h)\leq\sqrt{\frac{ln|H|+ln(2/\delta)}{2m}}$ =泛化误差上界 generalization error bound
我们需要每一层的泛化误差都在训练收敛后足够小,尤其是越靠近输出值y的特征层,越不能容忍高泛化误差,否则下场就是过拟合。
$2/\delta$与精度需求有关,一般都是常数,所以基本可以无视第二项,泛化误差上界主要取决于$ln|H|=S$也就是当前隐藏层的信息熵 (参见之前对于熵的定义)与样本数量m的比例。每一层特征值h,可取的值的排列组合个数的对数就是当前层的熵,也是描述该层特征所需的bit数。
下一篇将详细分析信息是如何在神经网络构成的马尔科夫链中被一层层传导的,会反复使用到交互信息与泛化误差两个知识。
从信息论的角度分析DNN的工作原理的更多相关文章
- 面试官:你分析过mybatis工作原理吗?
Mybatis工作原理也是面试的一大考点,必须要对其非常清晰,这样才能怼回去.本文建立在Spring+SpringMVC+Mybatis整合的项目之上. 我将其工作原理分为六个部分: 读取核心配置文件 ...
- 从源代码角度分析ViewStub 疑问与原理
一.提出疑问 ViewStub比較简单.之前文章都提及到<Android 性能优化 三 布局优化ViewStub标签的使用>.可是在使用过程中有一个疑惑,究竟是ViewStub上设 ...
- 反编译字节码角度分析synchronized关键字的原理
1.synchronized介绍 synchronized是java关键字.JVM规范中,synchronized关键字用于在线程并发执行时,保证同一时刻,只有一个线程可以执行某个代码块或方法:同时还 ...
- 源码分析八( hashmap工作原理)
首先从一条简单的语句开始,创建了一个hashmap对象: Map<String,String> hashmap = new HashMap<String,String>(); ...
- Android ListView工作原理完全解析,带你从源码的角度彻底理解
版权声明:本文出自郭霖的博客,转载必须注明出处. 目录(?)[+] Adapter的作用 RecycleBin机制 第一次Layout 第二次Layout 滑动加载更多数据 转载请注明出处:h ...
- Android ListView工作原理全然解析,带你从源代码的角度彻底理解
转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/44996879 在Android全部经常使用的原生控件其中.使用方法最复杂的应该就是 ...
- Tomcat 系统架构与设计模式,第 1 部分: 工作原理(转载)
简介: 这个分为两个部分的系列文章将研究 Apache Tomcat 的系统架构以及其运用的很多经典设计模式.本文是第 1 部分,将主要从 Tomcat 如何分发请求.如何处理多用户同时请求,还有它的 ...
- Tomcat 系统架构与设计模式,第 1 部分: 工作原理
简介: 这个分为两个部分的系列文章将研究 Apache Tomcat 的系统架构以及其运用的很多经典设计模式.本文是第 1 部分,将主要从 Tomcat 如何分发请求.如何处理多用户同时请求,还有它的 ...
- tomcat 系统架构与设计模式 第一部分 系统架构工作原理 转
Tomcat 系统架构与设计模式,第 1 部分: 工作原理 许 令波, Java 开发工程师, 淘宝网 许令波,现就职于淘宝网,是一名 Java 开发工程师.对大型互联网架构设计颇感兴趣,并对一些开源 ...
随机推荐
- Windows服务器
知道了怎么装VMware workstation并且创建虚拟机装上了系统配好网络
- 侧脸生成正脸概论与精析(一)Global and Local Perception GAN
侧脸生成正脸我一直很感兴趣,老早就想把这块理一理的.今天来给大家分享一篇去年的老文章,如果有不对的地方,请斧正. Beyond Face Rotation: Global and Local Perc ...
- TinkPHP框架学习-01基本知识
1-----目录结构 2-----访问地址 3-----MVC开发 一 目录结构 |--Application 程序文件夹 |--Common 公共方法函数 |--Home 模块 |也可以自 ...
- Lombok使用简介
1.在maven中加入Lombok引入 2.在开发环境中加入Lombok插件 3.在实体类的类名上增加注释@Date即可使用所有get,set方法
- Python 3.7 安装Twisted
win10电脑 64位系统 Python 3.7 版本安装Twisted-18.9.0-cp37-cp37m-win32.whl 会成功 先下载下来,放到 Scripts文件夹下 然后cmd 我的是 ...
- Habits of Considerate People
Habits of Considerate People体贴人的八种习惯哲学家亚瑟·叔本华曾经说过:“蜡之可贵,在于燃烧自己温暖他人,人之可贵,在于屈尊敬贤彬彬有礼”,事实的确如此.善意与体贴能够抚慰 ...
- 修复Microsoft Store 无法连接网络 代码: 0x80072EFD
事情的经过是这样的,我的Windows版本是1709,前两天刚从1703升上来,今天突然发现它自己给我装了个skype,我上Microsoft商店里查一下是什么情况,结果突然发现它又双双双不正常工作了 ...
- Unix/Linux系统的发展史
Unix/Linux系统相信是学编程的人都认识这两个系统.我们知道Unix要钱,而Linux免费,而且这两者之间的发展史是什么样的,是不是两者就是同一个东西呢? 我将会以时间的发展过程来一步步的给大家 ...
- Vue+DataTables warning:table id=xxxx -Cannot reinitialize DataTable.报错解决方法
问题描述: 使用DataTables来写列表,用vue来渲染数据,有搜索功能,每次点击搜索就会报错,如下图所示. 问题排查: 找了一系列原因,最后发现是我每次请求完数据之后都会添加分页功能,从而导致了 ...
- jmeter入门简介(一)
简介 Apache JMeter是100%纯JAVA桌面应用程序,被设计为用于测试CS/BS的软件.它可以用来测试静态和动态资源的性能,可用于模拟大量负载来测试一台服务器,网络或者对象的健壮性或者分析 ...