ResNet网络再剖析

随着2018年秋季的到来，提前批和内推大军已经开始了，自己也成功得当了几次炮灰，不过在总结的过程中，越是了解到自己的不足，还是需要加油。

最近重新复习了resnet网络，又能发现一些新的理念，感觉很fantastic，顺便记录一下～

之前有转载一篇resnet的网络，很不错，链接在这：https://www.cnblogs.com/wmr95/articles/8848158.html

下面重新了解一下resnet，Let’s Go～～

《一》Resnet解决了什么问题

首先了解Resnet网络主要解决的问题是：关于深层网络训练带来的问题，包括梯度消失和网络退化。

深度卷积网络自然的整合了低中高不同层次的特征，特征的层次可以靠加深网络的层次来丰富。从而，在构建卷积网络时，网络的深度越高，可抽取的特征层次就越丰富。所以一般我们会倾向于使用更深层次的网络结构，以便取得更高层次的特征。但是在使用深层次的网络结构时我们会遇到两个问题，梯度消失，梯度爆炸问题和网络退化的问题。

但是当使用更深层的网络时，会发生梯度消失、爆炸问题，这个问题很大程度通过标准的初始化和正则化层来基本解决，这样可以确保几十层的网络能够收敛，但是随着网络层数的增加，梯度消失或者爆炸的问题仍然存在。

还有一个问题就是网络的退化，举个例子，假设已经有了一个最优化的网络结构，是18层。当我们设计网络结构的时候，我们并不知道具体多少层次的网络时最优化的网络结构，假设设计了34层网络结构。那么多出来的16层其实是冗余的，我们希望训练网络的过程中，模型能够自己训练这16层为恒等映射，也就是经过这层时的输入与输出完全一样。但是往往模型很难将这16层恒等映射的参数学习正确，那么就一定会不比最优化的18层网络结构性能好，这就是随着网络深度增加，模型会产生退化现象。它不是由过拟合产生的，而是由冗余的网络层学习了不是恒等映射的参数造成的。

注意这里冗余的16层网络并不一定是最后的16层，可能是穿插在网络各层当中。

《二》Resnet网络是如何解决问题

1. Resnet介绍

ResNet使用了一个新的思想，ResNet的思想是假设我们设计一个网络层，存在最优化的网络层次，那么往往我们设计的深层次网络是有很多网络层为冗余层的。那么我们希望这些冗余层能够完成恒等映射，保证经过该恒等层的输入和输出完全相同。具体哪些层是恒等层，这个会有网络训练的时候自己判断出来。将原网络的几层改成一个残差块，残差块的具体构造如下图所示：

可以看到X是这一层残差块的输入，也称作F(x)为残差，x为输入值，F(X)是经过第一层线性变化并激活后的输出，该图表示在残差网络中，第二层进行线性变化之后激活之前，F(x)加入了这一层输入值X，然后再进行激活后输出。在第二层输出值激活前加入X，这条路径称作shortcut连接。

2. 在引入Resnet网络之前关于问题的解决方案：

我们发现，假设该层是冗余的，在引入ResNet之前，我们想让该层学习到的参数能够满足h(x)=x，即输入是x，经过该冗余层后，输出仍然为x。但是可以看见，要想学习h(x)=x恒等映射时的这层参数是比较困难的。ResNet想到避免去学习该层恒等映射的参数，使用了如上图的结构，让h(x)=F(x)+x;这里的F(x)我们称作残差项，我们发现，要想让该冗余层能够恒等映射，我们只需要学习F(x)=0。学习F(x)=0比学习h(x)=x要简单，因为一般每层网络中的参数初始化偏向于0，这样在相比于更新该网络层的参数来学习h(x)=x，该冗余层学习F(x)=0的更新参数能够更快收敛，如图所示：

假设该曾网络只经过线性变换，没有bias也没有激活函数。我们发现因为随机初始化权重一般偏向于0，那么经过该网络的输出值为[0.6 0.6]，很明显会更接近与[0 0]，而不是[2 1]，相比与学习h(x)=x，模型要更快到学习F(x)=0。

并且ReLU能够将负数激活为0，过滤了负数的线性变化，也能够更快的使得F(x)=0。这样当网络自己决定哪些网络层为冗余层时，使用ResNet的网络很大程度上解决了学习恒等映射的问题，用学习残差F(x)=0更新该冗余层的参数来代替学习h(x)=x更新冗余层的参数。所以说Resnet搭配ReLU线性激活是完美组合～

这样当网络自行决定了哪些层为冗余层后，通过学习残差F(x)=0来让该层网络恒等映射上一层的输入，使得有了这些冗余层的网络效果与没有这些冗余层的网络效果相同，这样很大程度上解决了网络的退化问题。

3. 引入Resnet网络后是如何解决问题

我们发现很深的网络层，由于参数初始化一般更靠近0，这样在训练的过程中更新浅层网络的参数时，很容易随着网络的深入而导致梯度消失，浅层的参数无法更新。

此处贴反向传播的图～～

可以看到，假设现在需要更新b1，w2,w3,w4参数因为随机初始化偏向于0，通过链式求导我们会发现，w1w2w3相乘会得到更加接近于0的数，那么所求的这个b1的梯度就接近于0，也就产生了梯度消失的现象。

ResNet最终更新某一个节点的参数时，由于h(x)=F(x)+x，由于链式求导后的结果如图所示，不管括号内右边部分的求导参数有多小，因为左边的1的存在，并且将原来的链式求导中的连乘变成了连加状态（正确？），都能保证该节点参数更新不会发生梯度消失或梯度爆炸现象。

这样ResNet在解决了阻碍更深层次网络优化问题的两个重要问题后，ResNet就能训练更深层次几百层乃至几千层的网络并取得更高的精确度了。

最后总结下ResNet网络：

1. 解决梯度消失的问题：引入残差项使得h(x)=F(x)+x，在反向传播的时候因为有x的存在，保证参数更新的时候不容易会出现梯度消失的现象。

2. 解决网络退化的问题：由于参数初始化一般更靠近0，所以对于网络来说训练残差项F(x)=0要比学习h(x)=x更容易收敛。

ResNet网络再剖析的更多相关文章

学习笔记-ResNet网络
ResNet网络 ResNet原理和实现总结一.ResNet原理和实现神经网络第一次出现在1998年,当时用5层的全连接网络LetNet实现了手写数字识别,现在这个模型已经是神经网络界的“hel ...
深度学习之ResNet网络
介绍 Resnet分类网络是当前应用最为广泛的CNN特征提取网络. 我们的一般印象当中,深度学习愈是深(复杂,参数多)愈是有着更强的表达能力.凭着这一基本准则CNN分类网络自Alexnet的7层发展到 ...
PyTorch对ResNet网络的实现解析
PyTorch对ResNet网络的实现解析 1.首先导入需要使用的包 import torch.nn as nn import torch.utils.model_zoo as model_zoo # ...
0609-搭建ResNet网络
0609-搭建ResNet网络目录一.ResNet 网络概述二.利用 torch 实现 ResNet34 网络三.torchvision 中的 resnet34网络调用四.第六章总结 pyt ...
ResNet网络的训练和预测
ResNet网络的训练和预测简介 Introduction 图像分类与CNN 图像分类是指将图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法,是计算机视觉中其他任务,比如目标检测 ...
Resnet网络详细结构（针对Cifar10）
Resnet网络详细结构(针对Cifar10) 结构具体结构(Pytorch) conv1 (conv1): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, ...
深度残差网络（DRN）ResNet网络原理
一说起“深度学习”,自然就联想到它非常显著的特点“深.深.深”(重要的事说三遍),通过很深层次的网络实现准确率非常高的图像识别.语音识别等能力.因此,我们自然很容易就想到:深的网络一般会比浅的网络效果 ...
ResNet网络的Pytorch实现
1.文章原文地址 Deep Residual Learning for Image Recognition 2.文章摘要神经网络的层次越深越难训练.我们提出了一个残差学习框架来简化网络的训练,这些 ...
java网络---再论URL & URI
关于URL 和URI的关系,在本系列的第二篇:java网络---基本web概念中已经简述了. 这里重复一点,就是URI包含URL,或者说URI是父类,URL就是子类的概念. 本篇再来详述这2个概念. ...

随机推荐

2019 年 Spread.NET 产品路线图（Roadmap）
前言 | 问题背景 2018年结束了,12月是Spread.NET的重要月份.我们发布了Spread.NET 12,我们期待着 2019 年令人兴奋的新年,这是Windows Forms开发人员有史以 ...
Date日期类型的绑定
自定义类型的绑定 springmvc没有提供默认的对日期类型的绑定,需要自定义日期类型的绑定第一张图是po类中日期属性,第二张图是页面中日期属性的内容,第三张图片是访问出现400错误因为日期的格式 ...
剑指offer：反转链表
问题描述输入一个链表,反转链表后,输出新链表的表头. c++代码 /* struct ListNode { int val; struct ListNode *next; ListNode(int ...
js打印html指定元素，解决动态获取的图片无法打印问题
用js来调用浏览器的打印接口很容易,一两行代码就能搞定,但是有些数据是通过动态生成的,例如一些动态生成的二维码,有时候调用打印接口图片会无法显示为了解决这个问题,建议使用下面这个库下载:https ...
[原]osg模型动画|骨骼动画
参考源码:osg的官方例子:osganimationviewer 首先制作一个带骨骼动画的模型 demo.FBX 这里面我们做了两个骨骼动画:1.open 2.close 下面开始在osg中使用 ...
Windows 7环境下网站性能测试小工具 Apache Bench 和 Webbench使用和下载
1.简要说明: Apache Bench 是Apache的网站性能测试小程序,Windows平台下的程序名简称ab.exe,要想获得这个80k的可执行程序,用户需要下载整个Apache Httpd软件 ...
使用vue+iview实现上传文件及常用的下载文件的方法
首先说明一下,我们这次主要用的还是iview的upload上传组件,下面直接上代码 <Upload ref="upload" multiple='true' //是否支持多文 ...
HOMER | MEME | 转录因子的靶基因预测
Finding Enriched Motifs in Genomic Regions (findMotifsGenome.pl) 在指定区域做motif enrichment,大大降低了假阳性. ME ...
WARING
每一道题都先手玩样例! 认真读一下每一档数据,仔细计算每一档可以拿的分数! 读完题目后,把所有能想到的思路写在纸上. 最优化题目考虑dp和贪心两种方法字符串题目前缀考虑trie树,后缀考虑fail树 ...
c语言经典小程序
1:题目:有1.2.3.4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少? 1.程序分析:可填在百位.十位.个位的数字都是1.2.3.4.组成所有的排列后再去掉不满足条件的排列. mai ...

ResNet网络再剖析

ResNet网络再剖析的更多相关文章

随机推荐

热门专题