如何解决loss NAN的问题

问题

　　如上图所示，第二次迭代时出现NAN值，nan表示无穷大或者非数值，一般是在一个数除以0或者log(0)时会出现无穷大。可能的原因有：1）学习率过大；2）batch过大；3）不当的损失函数等。

　　试着将学习率和batch分别调低，但还是会出现nan，说明不是学习率和batch的问题。

定位loss NAN的方法

　　使用tensorflow的代码调试模块tfdbg，可以看到运行tensorflow graph时的内部结构体和状态，方便排查变量出现NAN、inf的情况。tfdbg的官方文档介绍 https://www.tensorflow.org/versions/master/how_tos/debugger/

　　使用过滤器可以帮助查找异常值，命令：run -f has_inf_or_nan。如下图所示，在第一行中has_inf_or_nan过滤器在第一次Session.run调用期间第一次被触发。第一个出现异常值的tensor是计算欧式距离的tensor。

　　点第一个打印出来的结果如下图，发现其中有个值是-inf。

　　点击node_info查看该节点的信息，如下图所示。该节点的操作是SqrtGrad，有两个输入。

　　点击第一个input-->[Sqrt]-->print_tensor，查看Sqrt的运算结果。发现其中有个值的结果为0，所以应该是计算欧式距离的时候这些0值导致最后计算loss的时候输出为NAN。

解决方法

　　1、去掉tf.sqrt函数

　　2、直接去掉欧式距离

　　3、将欧式距离换成标准化欧式距离。标准化欧式距离是针对简单欧式距离缺点而做的一种改进方案。

未完待续

如何解决loss NAN的问题的更多相关文章

深度学习中，使用regularization正则化(weight_decay)的好处，loss=nan
刚开始训练一个模型,自己就直接用了,而且感觉训练的数据量也挺大的,因此就没有使用正则化, 可能用的少的原因,我也就不用了,后面,训练到一定程度,accuracy不上升,loss不下降,老是出现loss ...
yolo v3 loss=nan, Avg loss=nan的一种原因
我这里是由于数据整理错误导致的,同一标注区域重复2次送入模型,具体如下: 0.798046875 0.5555555555555556 0.04296875 0.03611111111111111 0 ...
tensorflow 训练的时候loss=nan
出现loss为nan 可能是使用了relu激活函数,导致的.因为在负半轴上输出都是0
mmdetection训练出现nan
训练出现nan 在使用MMDetection训练模型时,发现打印信息中出现了很多nan.现象是,loss在正常训练下降的过程中,突然变为nan. 梯度裁减在模型配置中加上grad_clip: opt ...
GPU下train 模型出现nan
When training on GPU, the error "Model diverged with loss = NaN" is often caused by a sotm ...
TensorFlow入门学习(让机器/算法帮助我们作出选择)
catalogue . 个人理解 . 基本使用 . MNIST(multiclass classification)入门 . 深入MNIST . 卷积神经网络:CIFAR- 数据集分类 . 单词的向量 ...
MTCNN试用
检测工作想借用MTCNN里的48-net,源码来自CongWeilin Git 下下来就能跑,真是良心进入pepare_data准备好数据以后进入48-net,目录下有一个pythonLayer.p ...
[调参]CV炼丹技巧/经验
转自:https://www.zhihu.com/question/25097993 我和@杨军类似, 也是半路出家. 现在的工作内容主要就是使用CNN做CV任务. 干调参这种活也有两年时间了. 我的 ...
DL开源框架Caffe | 模型微调（finetune）的场景、问题、技巧以及解决方案
转自:http://blog.csdn.net/u010402786/article/details/70141261 前言什么是模型的微调? 使用别人训练好的网络模型进行训练,前提是必须和别人 ...

随机推荐

移动 ProgramData\Package Cache 文件夹
装完vs2017 发现C盘快木有空间了… 瞅瞅C盘下有啥能删的好释放下空间就找到了 Package Cache 文件夹,占用空间接近15G… 查查这个文件夹还不建议删除… (http://super ...
docker - 容器lxc
容器:是在用户空间进行隔离的组件叫做容器常用的容器有lxc ----libcontainer---runc 需要隔离的资源有: Rootfs:每个容器对应的一个目录做为根目录 User: Hostn ...
理解java关键字Synchronized（学习笔记）
之前学习了线程的一些相关知识,今天系统的总结下来目录 1. Java对象在堆内存中的存储结构 2. Monitor管程 3. synchronized锁的状态变换以及优化 4. synchroniz ...
PostgreSQL自学笔记:与python交互
与python交互教程原文地址:https://www.yiibai.com/html/postgresql/2013/080998.html 1. Python psycopg2 模块APIs 连 ...
CF 960 G
难受的1b,怎么会这样先去学写一发 NTT 大概说一下斯特林数
DWM1000 测距原理简单分析之 SS-TWR代码分析1 -- [蓝点无限]
蓝点DWM1000 模块已经打样测试完毕,有兴趣的可以申请购买了,更多信息参见蓝点论坛正文: 这一篇内容主要是通过官方源码理解SS-TWR 细节代码下载链接:https://download.c ...
rmq问题模板处理
rmq问题: 先贴一下定义范围最值查询维基百科,自由的百科全书范围最值查询(Range Minimum Query),是针对数据集的一种条件查询.若给定一个数组 A[1, n],范围最值查询指定 ...
jade的写法
标签直接写:p或p. 例如: p 今天自己很棒 p.今天自己很棒则输入 <p>今天自己很棒</p> <p>今天自己很棒</p> ***jage模板记得 ...
java列表数据基本操作
列表数据组基本的增删改查 package cn.edu.fhj.day002; import java.util.ArrayList; public class ArrList { // 定义一个主函 ...
jmeter下TPS插件的安装
1.下载插件http://pan.baidu.com/s/1mioVJni 2.解压下载的安装包: 将 jpgc-graphs-basic-2.0.zip 解压缩后只有一个 lib 目录,该目录下有一 ...

如何解决loss NAN的问题

如何解决loss NAN的问题的更多相关文章

随机推荐

热门专题