深度学习梯度反向传播出现Nan值的原因归类

症状：前向计算一切正常、梯度反向传播的时候就出现异常，梯度从某一层开始出现Nan值（Nan: Not a number缩写，在numpy中，np.nan != np.nan，是唯一个不等于自身的数）。

フォワードの計算に異常なしでも、その模型の変量をアプデートする時に異常な数字が出る。Pythonのプログラムにあるなら、Nanというもの現れることです。

根因：原因目前遇到的分为两种，其一——你使用了power(x, a) (a < 1)这样的算子，因为power函数这样的算子，在梯度反向传播阶段时，求导会产生1/(x^(a-1))这样的形式，

而如果前向时某层的某个值为0或者趋近于0的数，那么求导后，梯度为无穷大，超出表示范围，成为Nan类型，这一类型会弥散到整个网络直至下一轮迭代出现loss为Nan被发现。

所以，任何能导致梯度爆炸出现Nan的算子都应该重点关注，求导后才产生的‘’除零错误”极易被忽略，因此这一点尤其需要注意。包括ln(x)，1/x，pow(x, a<1)等等。

其二——采用了归一化操作，隐含了除零错误的隐患：如x = x / mean(x)，能将x的分布更加接近在(0,1)之间的均匀分布，但如果一开始网络初始化不好，导致某层输出全为0，这样mean(x)==0！

就会出现除零错误。这一点有时也是很难发现的。

その原因は、多分二つがある：一つは、power(x, a<1)また1/xまたln(x)といろいろタイプの操作を使われて、あるときに計算結果はゼロ存在して、そして、

その微分は数の範囲にいないものが出ていく。

その二つは、normalizationという操作です。実はこれまた「１/x」というかたちの操作だね。x = x / np.mean(x)なんというプログラムは、

こういうの異常を引いたときはたくさん見ました。

深度学习梯度反向传播出现Nan值的原因归类的更多相关文章

PyTorch深度学习实践——反向传播
反向传播课程来源:PyTorch深度学习实践--河北工业大学 <PyTorch深度学习实践>完结合集_哔哩哔哩_bilibili 目录反向传播笔记作业笔记在之前课程中介绍的线性 ...
深度学习之反向传播算法（BP）代码实现
反向传播算法实战本文仅仅是反向传播算法的实现,不涉及公式推导,如果对反向传播算法公式推导不熟悉,强烈建议查看另一篇文章神经网络之反向传播算法(BP)公式推导(超详细) 我们将实现一个 4 层的全连接 ...
训练深度学习网络时候，出现Nan是什么原因，怎么才能避免？——我自己是因为data有nan的坏数据，clear下解决
from:https://www.zhihu.com/question/49346370 Harick 梯度爆炸了吧. 我的解决办法一般以下几条:1.数据归一化(减均值,除方差,或者加入n ...
深度学习——前向传播算法和反向传播算法（BP算法）及其推导
1 BP算法的推导图1 一个简单的三层神经网络图1所示是一个简单的三层(两个隐藏层,一个输出层)神经网络结构,假设我们使用这个神经网络来解决二分类问题,我们给这个网络一个输入样本,通过前向运算得到 ...
CNN反向传播更新权值
背景反向传播(Backpropagation)是训练神经网络最通用的方法之一,网上有许多文章尝试解释反向传播是如何工作的,但是很少有包括真实数字的例子,这篇博文尝试通过离散的数据解释它是怎样工作的. ...
训练深度学习网络时候，出现Nan 或者震荡
出现Nan : 说法1: 说法2:说法3: 震荡 : 分析原因: 1:训练的batch_size太小 1. 当数据量足够大的时候可以适当的减小batch_size,由于数据量太大,内存不够 ...
100天搞定机器学习|day37 无公式理解反向传播算法之精髓
100天搞定机器学习(Day1-34) 100天搞定机器学习|Day35 深度学习之神经网络的结构 100天搞定机器学习|Day36 深度学习之梯度下降算法本篇为100天搞定机器学习之第37天,亦 ...
深度学习基础-基于Numpy的多层前馈神经网络（FFN）的构建和反向传播训练
本文是深度学习入门: 基于Python的实现.神经网络与深度学习(NNDL)以及花书的读书笔记.本文将以多分类任务为例,介绍多层的前馈神经网络(Feed Forward Networks,FFN)加上 ...
强化学习(十六) 深度确定性策略梯度(DDPG)
在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Cri ...

随机推荐

.NET 常用ORM之NHibernate
NHibernate做.Net应该都不陌生,今天我们就算是温故下这个技术,概念性的东西就不说了,这次主要说本人在实际使用的遇到的问题,比较费解现在就当是记录下,避免以后再犯.本次主要使用的情况是1对N ...
Linux系统的目录结构及常见目录总结
Linux系统的目录结构(必须掌握的内容) 所有目录只有一个顶点/(根),所有目录的起点. 只有一棵树 Linux的目录结构也是有规律的,而且也是按照类别组织的. 应用程序 /usr/bin 数据文件 ...
BZOJ 4195: [Noi2015]程序自动分析并查集+离散化
LUOGU 1955BZOJ 4195 题目描述在实现程序自动分析的过程中,常常需要判定一些约束条件是否能被同时满足. 考虑一个约束满足问题的简化版本:假设x1,x2,x3...代表程序中出现的变量 ...
国际空间站直播 ISS直播
b站:https://live.bilibili.com/9196015 斗鱼:https://www.douyu.com/543816 欢迎大家 (ฅ´ω`ฅ)
loj #6.Guess Number
原题链接:https://loj.ac/problem/6 Guess Number 内存限制:256 MiB 时间限制:1000 ms 题目类型:交互题目描述这是一个交互题的模板. 系统会随机生 ...
RFS常见问题
一.DatabaseLibrary 库遇到的问题:1,连接mysql库,查询语句带有中文,报FAIL UnicodeEncodeError: 'latin-1' codec can't encode ...
CentOS7攻克日记(一) —— 安装ISO
因为工作需要,开发环境需要装在centos7上面,这对用惯了ubuntu 这种Debian系的我,此刻只想说一句MMP 自从刚开始弄到现在VM里面已经躺了一堆的Centos7的尸体了,这次从头初始 ...
Django 的命令及简单例子
第一步:下载mysql驱动 cmd进入创建好的django项目目录:然后使用下面的命令创建一个项目testdj. sudo /usr/lib/python3/dist-packages/djang ...
Spring循环依赖问题
什么是循环依赖? 循环依赖就是循环引用,指两个或多个bean互相持有对方,比如说TestA引用TestB.TestB引用TestA,最终形成一个闭环. 注意:循环依赖不是指循环调用. 循环调用:指方法 ...
记录一下最近的解决的坑爹bug
最近解决的bug长得都很别致啊,记录一下一 :天气插件引用报403 项目里有一个天气插件引用一直报403 后来确定原因是headers里缺少referer源,无法访问资源的服务器,再后来又发现项目引 ...

深度学习梯度反向传播出现Nan值的原因归类

深度学习梯度反向传播出现Nan值的原因归类的更多相关文章

随机推荐

热门专题