论文笔记：Deep Residual Learning

之前提到，深度神经网络在训练中容易遇到梯度消失/爆炸的问题，这个问题产生的根源详见之前的读书笔记。在 Batch Normalization 中，我们将输入数据由激活函数的收敛区调整到梯度较大的区域，在一定程度上缓解了这种问题。不过，当网络的层数急剧增加时，BP 算法中导数的累乘效应还是很容易让梯度慢慢减小直至消失。这篇文章中介绍的深度残差 (Deep Residual) 学习网络可以说根治了这种问题。下面我按照自己的理解浅浅地水一下 Deep Residual Learning 的基本思想，并简单介绍一下深度残差网络的结构。

基本思想

回到最开始的问题，为什么深度神经网络会难以训练？根源在于 BP 的时候我们需要逐层计算导数并将这些导数相乘。这些导数如果太小，梯度就容易消失，反之，则会爆炸。我们没法从 BP 算法的角度出发让这个相乘的导数链消失，因此，可行的方法就是控制每个导数的值，让它们尽量靠近 1，这样，连乘后的结果不会太小，也不会太大。

现在，我们就从导数入手，看看如何实现上面的要求。由于梯度消失的问题比梯度爆炸更常见，因此只针对梯度消失这一点进行改进。

假设我们理想中想让网络学习出来的函数是 \(F(x; {W_i})\)，但由于它的导数 \(\frac{\partial F}{\partial x}\) 太小，所以训练的时候梯度就消失了。所谓太小，就是说 \(\frac{\partial F}{\partial x} \approx 0\)，那么，我们何不在这个导数的基础上加上 1 或者减去 1，这样梯度不就变大了吗？（这里的 1 是为了满足之前提到的梯度靠近 1 这一要求，事实上，只要能防止梯度爆炸，其他数值也是可以的，不过作者在之后的实验中证明，1 的效果最好）

按照这种思路，我们现在想构造一个新的函数，让它的导数等于 \(\frac{\partial F}{\partial x}+1\)。由这个导数反推回去，很自然地就得到一个我们想要的函数：\(H(x)=F(x)+x\)，它的导数为：\(\frac{\partial H}{\partial x} = \frac{\partial F}{\partial x}+1\)。这个时候你可能会想，如果将原来的 \(F(x)\) 变成 \(H(x)\)，那网络想要提取的特征不就不正确了吗，这个网络还有什么用？不错，我们想要的最终函数是 \(F(x; {W_i})\)，这个时候再加个 \(x\) 上去，结果肯定不是我们想要的。但是，为什么一定要让网络学出 \(F(x; {W_i})\)？为什么不用 \(H(x)\) 替换原本的 \(F(x;{W_i})\)，而将网络学习的目标调整为：\(F(x)=H(x)-x\)？要知道，神经网络是可以近似任何函数的，只要让网络学出这个新的 \(F(x)\)，那么我们自然也就可以通过 \(H(x)=F(x)+x\) 得到最终想要的函数形式。作者认为，通过这种方式学习得到的 \(H(x)\) 函数，跟当初直接让网络学习出的 \(F(x, {W_i})\)，效果上是等价的，但前者却更容易训练。

==================== UPDATE 2018.1.23 =====================

时隔几个月重新看这篇文章，发现当初的理解存在一个巨大的问题，在此，对那些被我误导的同学深深道歉

论文笔记：Deep Residual Learning的更多相关文章

论文笔记——Deep Residual Learning for Image Recognition
论文地址:Deep Residual Learning for Image Recognition ResNet--MSRA何凯明团队的Residual Networks,在2015年ImageNet ...
[论文理解]Deep Residual Learning for Image Recognition
Deep Residual Learning for Image Recognition 简介这是何大佬的一篇非常经典的神经网络的论文,也就是大名鼎鼎的ResNet残差网络,论文主要通过构建了一种新 ...
[论文阅读] Deep Residual Learning for Image Recognition(ResNet)
ResNet网络,本文获得2016 CVPR best paper,获得了ILSVRC2015的分类任务第一名. 本篇文章解决了深度神经网络中产生的退化问题(degradation problem). ...
Deep Residual Learning for Image Recognition论文笔记
Abstract We present a residual learning framework to ease the training of networks that are substant ...
Deep Residual Learning
最近在做一个分类的任务,输入为3通道车型图片,输出要求将这些图片对车型进行分类,最后分类类别总共是30个. 开始是试用了实验室师姐的方法采用了VGGNet的模型对车型进行分类,据之前得实验结果是训练后 ...
Deep Residual Learning for Image Recognition这篇文章
作者:何凯明等,来自微软亚洲研究院: 这篇文章为CVPR的最佳论文奖:(conference on computer vision and pattern recognition) 在神经网络中,常遇 ...
深度学习方法（五）：卷积神经网络CNN经典模型整理Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 关于卷积神经网络CNN,网络和文献中 ...
Deep Residual Learning for Image Recognition (ResNet)
目录主要内容代码 He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]. computer vi ...
Deep Residual Learning for Image Recognition
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun Microsoft Research {kahe, v-xiangz, v-sh ...

随机推荐

go 方法
go 方法 Golang中的任何自定义类型,都可以有方法,而不仅仅是struct. 定义:func (recevier type) methodName(参数列表)(返回值列表){} 方法的访问控制, ...
设计模式_代理模式_在SqlSessionTemplate(Spring)中的应用
1.SqlSessionTemplate的构造函数,根据传入的SqlSessionFactory和ExecutorType创建一个Spring管理的SqlSession,并生成SqlSession的动 ...
flask session
flask session工作机制: 把敏感数据经过加密后放入到‘session’中,然后在把'session'存放到cookie中,下次请求的时候,再从浏览器发送过来的cookie中读取sessio ...
数据库基础SQL知识面试题一
数据库基础SQL知识面试题一作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 如标题所示,本篇博客主要介绍基础知识的面试题.大家可以用来测试面试者的技术水平,由于个人水平所限,难免 ...
网络编程基础【day09】：socket实现文件发送（六）
本节内容 1.概述 2.文件下载实现 3.MD5值校验一.概述我们如何利用socket去下载一个文件,整体思路是这样的: 读取文件名检测文件是否存在打开文件检测文件大小发送文件大小给客户端 ...
java io系列09之 FileDescriptor总结
本章对FileDescriptor进行介绍转载请注明出处:http://www.cnblogs.com/skywang12345/p/io_09.html FileDescriptor 介绍 Fil ...
JAVA-Clone 对象拷贝
JAVA 中对象的赋值是复制对象的引用,即复制引用 public static void main(String[] args) { User user = new User(1,"asds ...
JAVA核心技术I---JAVA基础知识（多态）
一:类转型类转型:子类可以转父类,父类不可以转子类(除非父类对象本身就是子类) 1.父类 public class Human { public void say() { System.out.pr ...
Tornado基本应用
Tornado简介 Tornado有自己的socket(异步非阻塞,原生支持WebSocket),Django没有. Tornado的模板语言更接近Python风格,比Django要好理解. Demo ...
开发更健壮python程序的一些工具
在众多语言中, Java 生态系统发展得最好, 比如异常logging报警, 比如性能监控工具. Python其实生态也不错, 这里列出一些出色的工具. LogBook, 并结合 raven-pyth ...

论文笔记：Deep Residual Learning

基本思想

论文笔记：Deep Residual Learning的更多相关文章

随机推荐

热门专题