cnn为什么会不存在vanishing gradient的问题

之前神经网络火过一段时间，但是后来又淡出了，后来又火了，尤其是到2012年真的像发水一样。

之前为什么不火了呢，因为人们发现网络浅了吧，没什么优势。网络深了吧，又会出现vanishing gradient，无法训练。

看文章也没看到有特别提到为什么现在又能训练了。

调研了一下，是因为几个原因吧。

1. 现在的网络中的激活函数变了，由原来的sigmoid变成了relu，这个从relu的分布来看，限制了误差的无限变化。

2. 计算资源变好了。原来的计算资源比较差，训练的话不能一点点调，但是学习率设置大了，会影响收敛的。现在有了GPU和高速的CPU了，可以很小的learning rate开始训练，不停的迭代，也是现实的。

3. dropout的使用。这个防止了过拟合。

lstm我觉得就是利用了类似于第一点的特性吧。通过增加lstm这个环节，让rnn的误差不至于vanishing gradient.

其实我还是没弄明白vanishing gradient的克服问题。我好像陷入了一个死胡同了，老想用理论来理解这个问题，但是出现这个问题的理论是显而易见的，可是克服这个问题的这些解决办法，好像都没有很好的理论基础吧。虽然RELU从一定程度上克服了这个问题，但是当层数很深时，还是会出现这个问题的，所以he kaiming灯提出了一种PRELU，可以训练更深的网络。

而至于LSTM，增加了各种门，但是我其实没看到哪里从理论上保证了是克服这个问题的，这个需要再看看。

cnn为什么会不存在vanishing gradient的问题的更多相关文章

梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题
(1)梯度不稳定问题: 什么是梯度不稳定问题:深度神经网络中的梯度不稳定性,前面层中的梯度或会消失,或会爆炸. 原因:前面层上的梯度是来自于后面层上梯度的乘乘积.当存在过多的层次时,就出现了内在本质上 ...
梯度消失（vanishing gradient）和梯度爆炸（exploding gradient）
转自https://blog.csdn.net/guoyunfei20/article/details/78283043 神经网络中梯度不稳定的根本原因:在于前层上的梯度的计算来自于后层上梯度的乘积( ...
This instability is a fundamental problem for gradient-based learning in deep neural networks. vanishing exploding gradient problem
The unstable gradient problem: The fundamental problem here isn't so much the vanishing gradient pro ...
About CNN（convolutional neural network）
NO.1卷积神经网络基本概念 CNN是第一个被成功训练的多层深度神经网络结构,具有较强的容错.自学习及并行处理能力.最初是为识别二维图像而设计的多层感知器,局部连接和权值共享网络结构类似于生物神经网 ...
（转）Introduction to Gradient Descent Algorithm (along with variants) in Machine Learning
Introduction Optimization is always the ultimate goal whether you are dealing with a real life probl ...
网络流量预测国内外研究现状【见评论】——传统的ARIMA、HMM模型，目前LSTM、GRU、CNN应用较多，貌似小波平滑预处理步骤非常关键
Time Series Anomaly Detection in Network Traffic: A Use Case for Deep Neural Networks from:https://j ...
Training Deep Neural Networks
http://handong1587.github.io/deep_learning/2015/10/09/training-dnn.html //转载于 Training Deep Neural ...
Deep Learning in a Nutshell: Core Concepts
Deep Learning in a Nutshell: Core Concepts This post is the first in a series I’ll be writing for Pa ...
（转） Deep Learning in a Nutshell: Core Concepts
Deep Learning in a Nutshell: Core Concepts Share: Posted on November 3, 2015by Tim Dettmers 7 Comm ...

随机推荐

VSCode个人实用插件
1.汉化插件 Chinese (Simplified) Language Pack for Visual Studio Code 发布者:Microsoft 2.主题插件(IDEA主题) Darcul ...
HBase学习（一）
HBase是建立在Hadoop文件系统之上的分布式面向列的数据库.它是一个开源项目,是横向扩展的. HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据.它利用了Hado ...
join合并字符串时使用生成器表达式
data=['11','pp','aa'] ','.join(str(d) for d in data)
Murano为镜像包添加Root用户密码
1. 安装dib-utils Dib Utils 是 diskimage-builder 工程的一部分,但是他们也用于 diskimage-builder 工程外部. 因为基于云的磁盘空间已经溢出,推 ...
phpmyadmin 开放远程登录的权限
*linux下的修改* 在phpmyadmin.conf 加上如下试一下 <Directory "phpmyadmin路径"> AllowOverride No ...
mysql java 通用AES加密
最近有个需求,需要对数据库某些字段加密,调研发现采用AES加密的方式较多,而且反向解密速度快,符合需求,于是采用:下面是遇到的问题及相关代码首先第一个问题,AES的秘钥是16位,mysql的密码长度 ...
plupload2.1.2文件合并
1.前端 (1)依赖文件: <link type="text/css" rel="stylesheet" href="~/Content/plu ...
AngularJS 学习（-）Hello world
早期的AngularJS使我们的前端开发模式发生很大的变化,基使用MVC. Model - html 模板:Controller - js脚本; Model 来自于Web API 或其他Service ...
Spring cloud微服务 Hystrix熔断器学习教程
以下demo代码:https://github.com/wades2/HystrixtDemo 官网定义:Hystrix是一个延迟容错库.在分布式环境中,许多服务依赖项中的一些不可避免地会失败.Hys ...
Android Studio修改默认Activity继承AppCompatActivity（转）
在Android Studio中新建Activity默认继承AppCompatActivity,感觉这点十分不爽,找了很久,终于发现在Android Studio安装目录下有个模板文件,修改其中的参数 ...

cnn为什么会不存在vanishing gradient的问题

cnn为什么会不存在vanishing gradient的问题的更多相关文章

随机推荐

热门专题