神经网络训练时出现nan错误

现在一直在用TensorFlow训练CNN和LSTM神经网络，但是训练期间遇到了好多坑，现就遇到的各种坑做一下总结

1.问题一;训练CNN的时候出现nan

CNN是我最开始接触的网络，我的研究课题就是利用CNN，LSTM等网络对人体动作做识别。动作数据来源于手机的加速度计，做动作的人在固定位置携带手机并做特定动作，实验人员接收手机的加速度计数值并打上特定的动作标签。

在训练CNN网络时一共遇到两处坑，一是遇到在训练期间遇到nan错误，这个错误很常见。nan的错误多源于你的学习率设置的太大或者batchsize设置的太大，可以10倍10倍的减小学习率直到nan错误不出现。其实要弄明白nan错误怎么出现的才能真正的解决这个错误。

这个错误是因为logits输出太大变成INF，对这个取log就会在求梯度就会变成nan，nan是not a number 的缩写，表示不是一个有理数。所以除了调小学习率这个解决方案，另一个解决方案还可以给loss加正则化项。

2.问题二;在训练CNN的时候loss一直降不下去

我用普通的卷积核对数据做卷积，准确率保持在0.4左右不动了，loss也是到后面基本不降，各种调网络结构终于找到一种深度可分离卷积结构可以使准确率达到0.9左右。深度卷积与我们了解的普通卷积网络的不同点就是它只做单通道卷积，也就是一次卷积后各个通道的卷积结果不相加，各自独立做为一个featuremap。但是这种网络结构的神经元个数增长很快，所以它的训练会比普通卷积慢很多，对于通道数过多的数据并不是很适合，但是这种网络的鲁棒性很好。

其实我这里出现loss不降的原因我后来找到了，是因为我的数据里有错误，数据本身就含有了nan的数据，错误的数据导致网络无法收敛

3.问题三;训练LSTM网络循环出现nan的错误，一到特定的batch就出现nan

一出现这个问题我就意识到肯定是数据出了问题，后来把数据中的nan替换掉就正常了。因为我的数据加载完后是numpy格式的，替换只需要加一句train= np.nan_to_num(train)就可以了

对数据做一个这样的简单处理，普通卷积网也正常了，真是豁然开朗啊，不用深度卷积，只用普通卷积就可以达到0.96的准确率。

4.我后来把CNN和LSTM联合起来对动作识别，发现不对数据处理nan错误，网络仍然可以正常运行并达到0.97的准确率。证明我自己搭的这个网络结构有很好的鲁棒性。

总结：

通过以上遇到问题可以总结出导致nan问题的原因有如下三个：

1.梯度爆炸：观察log，注意每一轮迭代后的loss。loss随着每轮迭代越来越大，最终超过了浮点型表示的范围，就变成了NaN。

2.不当的损失函数：有时候损失层中loss的计算可能导致NaN的出现。比如，给InfogainLoss层（信息熵损失）输入没有归一化的值，使用带有bug的自定义损失层等等。观测训练产生的log时一开始并不能看到异常，loss也在逐步的降低，但突然之间NaN就出现了

3.错误的输入：输入中就含有NaN，每当学习的过程中碰到这个错误的输入，就会变成NaN。观察log的时候也许不能察觉任何异常，loss逐步的降低，但突然间就变成NaN了。

神经网络训练时出现nan错误的更多相关文章

caffe 训练时，出现错误：Check failed: error == cudaSuccess (4 vs. 0) unspecified launch failure
I0415 15:03:37.603461 27311 solver.cpp:42] Solver scaffolding done.I0415 15:03:37.603549 27311 solve ...
Keras 训练时出现 CUDA_ERROR_OUT_OF_MEMORY 错误
不用惊慌,再试一次.估计当时GPU内存可分配不足,可手动结束所有python程序后释放相关GPU内存,或者重新运行一次终端
一文读懂神经网络训练中的Batch Size，Epoch，Iteration
一文读懂神经网络训练中的Batch Size,Epoch,Iteration 作为在各种神经网络训练时都无法避免的几个名词,本文将全面解析他们的含义和关系. 1. Batch Size 释义:批大小, ...
caffe︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization
一.深度学习中常用的调节参数本节为笔者上课笔记(CDA深度学习实战课程第一期) 1.学习率步长的选择:你走的距离长短,越短当然不会错过,但是耗时间.步长的选择比较麻烦.步长越小,越容易得到局部最优 ...
深度学习与CV教程(6) | 神经网络训练技巧 (上)
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
神经网络训练中的Tricks之高效BP（反向传播算法）
神经网络训练中的Tricks之高效BP(反向传播算法) 神经网络训练中的Tricks之高效BP(反向传播算法) zouxy09@qq.com http://blog.csdn.net/zouxy09 ...
tesorflow - create neural network+结果可视化+加速神经网络训练+Optimizer+TensorFlow
以下仅为了自己方便查看,绝大部分参考来源:莫烦Python,建议去看原博客一.添加层 def add_layer() 定义 add_layer()函数在 Tensorflow 里定义一个添加层的函 ...
tensorflow-gpu版本安装及深度神经网络训练与cpu版本对比
tensorflow1.0和tensorflow2.0的区别主要是1.0用的静态图一般情况1.0已经足够,但是如果要进行深度神经网络的训练,当然还是tensorflow2.*-gpu比较快啦. 其中 ...
Cs231n课堂内容记录-Lecture 7 神经网络训练2
Lecture 7 Training Neural Networks 2 课堂笔记参见:https://zhuanlan.zhihu.com/p/21560667?refer=intelligent ...

随机推荐

【我的Android进阶之旅】Android Studio查看Logcat时，如果一行Log太长如何换行显示？
使用Android Studio一段时间了,还有很多小技巧没有掌握.今天又发现了一个比较好用的小技巧,这里分享出来. 1.Android Studio默认显示效果比如我们用Logcat来查看打印的L ...
C++和JAVA实例化对象的区别
JAVA: A a = new A(); 为A对象创建了一个实例,但在内存中开辟了两块空间:一块空间在堆区,存放new A()这个对象:另一块空间在堆栈,也就是栈,存放a,a的值为new A()这个对 ...
position学习终结者(二)
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/wangshuxuncom/article/details/30982863 在博客& ...
开发微信公众平台--新建新浪云sae部署server
创建新浪云计算应用申请账号我们使用SAE新浪云计算平台作为server资源.而且申请PHP环境+MySQL数据库作为程序执行环境. 申请地址:百度搜sae ,使用新浪微博账号能够直接登录SAE,登 ...
GSM/GPRS/3G/4G
1.状态机机制的gprs拨号像GPRS/3G模块之类的应用,需要连接,登陆,初始化等步骤完成后才能传输数据,而这些步骤又比较耗时. 所以用状态机 + 超时的机制来实现比较合理. 如下代码片段来描 ...
开博第一篇，学习markdown
Markdown学习其实之前自己也一直有记录,不过是Evernote记录,没有分享出来,最近看了一些牛人博客,觉得也应该分享出来.和别人多交流,多学习.所以花了几小时学了一下Markdown语法,现 ...
Dora.Interception, 为.NET Core度身打造的AOP框架：不一样的Interceptor定义方式
相较于社区其他主流的AOP框架,Dora.Interception在Interceptor提供了完全不同的编程方式.我们并没有为Interceptor定义一个接口,正是因为不需要实现一个预定义的接口, ...
JDK1.7配置及测试
Windows 7 配置jdk 1.7环境变量 (网上找的,写的很清晰,保存下) 环境:win7(32位) jdk1.7 1.右击计算机-属性-高级系统设置-高级-环境变量,弹出“环境变量” ...
java基础知识框图
『NiFi 学习之路』入门 —— 下载、安装与简单使用
一.概述 "光说不练假把式." 官网上的介绍多少让人迷迷糊糊的,各种高大上的词语仿佛让 NiFi 离我们越来越远. 实践是最好的老师.那就让我们试用一下 NiFi 吧! 二.安装 ...

神经网络训练时出现nan错误

神经网络训练时出现nan错误的更多相关文章

随机推荐

热门专题