loss训练技巧

一，train loss与test loss结果分析
4666
train loss 不断下降，test loss不断下降，说明网络仍在学习;

train loss 不断下降，test loss趋于不变，说明网络过拟合;

train loss 趋于不变，test loss不断下降，说明数据集100%有问题;

train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;

train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。

二，
这个比较长，比较完整 Loss和神经网络训练

https://blog.csdn.net/u011534057/article/details/51452564

有1.梯度检验2.训练前检查，3.训练中监控4.首层可视化5.模型融合和优化等等等

三，https://www.zhihu.com/question/38937343

四，https://blog.csdn.net/u010911921/article/details/71079367

原文地址：http://blog.csdn.net/u010911921/article/details/71079367
这段在使用caffe的时候遇到了两个问题都是在训练的过程中loss基本保持常数值，特此记录一下。

1.loss等于87.33不变
loss等于87.33这个问题是在对Inception-V3网络不管是fine-tuning还是train的时候遇到的，无论网络迭代多少次，网络的loss一直保持恒定。

查阅相关资料以后发现是由于loss的最大值由FLT_MIN计算得到，FLT_MIN是其对应的自然对数正好是-87.3356，这也就对应上了loss保持87.3356了。

这说明softmax在计算的过程中得到了概率值出现了零，由于softmax是用指数函数计算的，指数函数的值都是大于0的，所以应该是计算过程中出现了float溢出的异常，也就是出现了inf，nan等异常值导致softmax输出为0.

当softmax之前的feature值过大时，由于softmax先求指数，会超出float的数据范围，成为inf。inf与其他任何数值的和都是inf，softmax在做除法时任何正常范围的数值除以inf都会变成0.然后求loss就出现了87.3356的情况。

解决办法

由于softmax输入的feature由两部分计算得到：一部分是输入数据，另一部分是各层的权值等组成

减小初始化权重，以使得softmax的输入feature处于一个比较小的范围

降低学习率，这样可以减小权重的波动范围

如果有BN(batch normalization)层，finetune时最好不要冻结BN的参数，否则数据分布不一致时很容易使输出值变得很大(注意将batch_norm_param中的use_global_stats设置为false )。

观察数据中是否有异常样本或异常label导致数据读取异常

本文遇到的情况采用降低学习率的方法，learning rate设置为0.01或者原来loss的或者。

2.loss保持0.69左右
采用VGG-16在做一个二分类问题,所以计算loss时等价与下面的公式：

当p=0.5时，loss正好为0.693147，也就是训练过程中，无论如何调节网络都不收敛。最初的网络配置文件卷积层的参数如下所示：

从VGG-16训练好的模型进行fine-tuning也不发生改变，当在网络中加入初始化参数和decay_mult以后再次训练网络开始收敛。

但是具体是什么原因造成的，暂时还没有找到，难道是初始化参数的问题还是？

参考资料
http://blog.csdn.net/jkfdqjjy/article/details/52268565?locationNum=14

https://groups.google.com/forum/#!topic/caffe-users/KEgrRlwXz9c

https://www.zhihu.com/question/68603783

loss一直不下降的原因有很多，可以从头到尾滤一遍： 1）数据的输入是否正常，data和label是否一致。 2）网络架构的选择，一般是越深越好，也分数据集。并且用不用在大数据集上pre-train的参数也很重要的 3）loss 对不对。

具体到语音，很多是把audio转成频谱图送给CNN训练。

NIPS16 有个soundNet(torch的code)，语音分类的performance很高，我觉得可以用来初始化你的model 参数, 可以参考下。

还有我见的3D-CNN 多用于视频，做audio 用3D 的工作比较少，倒是见过是用1维卷积做audio的

作者：二九
链接：https://www.zhihu.com/question/68603783/answer/265275915
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

---------------------
作者：ShellCollector
来源：CSDN
原文：https://blog.csdn.net/jacke121/article/details/79874555
版权声明：本文为博主原创文章，转载请附上博文链接！

loss训练技巧的更多相关文章

GAN训练技巧汇总
GAN自推出以来就以训练困难著称,因为它的训练过程并不是寻找损失函数的最小值,而是寻找生成器和判别器之间的纳什均衡.前者可以直接通过梯度下降来完成,而后者除此之外,还需要其它的训练技巧. 下面对历年关 ...
深度学习与CV教程(6) | 神经网络训练技巧 (上)
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
训练技巧详解【含有部分代码】Bag of Tricks for Image Classification with Convolutional Neural Networks
训练技巧详解[含有部分代码]Bag of Tricks for Image Classification with Convolutional Neural Networks 置顶 2018-12-1 ...
深度学习模型训练技巧 Tips for Deep Learning
一.深度学习建模与调试流程先看训练集上的结果怎么样(有些机器学习模型没必要这么做,比如决策树.KNN.Adaboost 啥的,理论上在训练集上一定能做到完全正确,没啥好检查的) Deep Learn ...
『开发技术』GPU训练加速原理（附KerasGPU训练技巧）
0.深入理解GPU训练加速原理我们都知道用GPU可以加速神经神经网络训练(相较于CPU),具体的速度对比可以参看我之前写的速度对比博文: [深度应用]·主流深度学习硬件速度对比(CPU,GPU,TP ...
DNN训练技巧（Tips for Training DNN）
本博客是针对李宏毅教授在Youtube上上传的课程视频<ML Lecture 9-1:Tips for Training DNN>的学习笔记. 课程链接 Recipe of Deep Le ...
神经网络训练技巧：训练参数初始化、Drop out及Batch Normalization
参数初始化: xavier初始化: https://blog.csdn.net/VictoriaW/article/details/73000632 条件:优秀的初始化应该使得各层的激活值和梯度的方差 ...
（转载）人脸识别中Softmax-based Loss的演化史
人脸识别中Softmax-based Loss的演化史旷视科技近期,人脸识别研究领域的主要进展之一集中在了 Softmax Loss 的改进之上:在本文中,旷视研究院(上海)(MEGVII Re ...
train loss相关问题
一.train loss 收敛慢,把learning_rate调高二.train loss不下降: 1.观察数据中是否有异常样本或异常label导致数据读取异常2.调小初始化权重,以便使softma ...

随机推荐

vue 一些学习笔记
var, let, const 区别 //-----------------var----------------- var a = []; for(var i= 0; i < 10; i++) ...
jmeter 进行websocket数据帧过大导致code 1009
Response message: Received: Close frame with status code 1009 and close reason 'No async message sup ...
vue中使用vue-i18n 一个简单的国际化操作
1.安装:npm install vue-i18n --save-dev 2.在main.js文件中引入: import VueI18n from 'vue-i18n' Vue.use(VueI18n ...
洛谷 P3865 【模板】ST表（模板）
嗯... 题目链接:https://www.luogu.com.cn/problem/P3865 ST(Sparse Table)算法,运用了倍增的思想. 我们令f[i][k]数组表示区间[i, i ...
Chrome浏览器切页快捷键
Chrome浏览器切换标签页快捷键 1.Ctrl + Tab 向左切换标签页 2.Ctrl + shift + Tab 向右切换 3.Ctrl + 1 切换到第一个页面 4.Ctrl + 9 切换到最 ...
从头学pytorch(五) 多层感知机及其实现
多层感知机上图所示的多层感知机中,输入和输出个数分别为4和3,中间的隐藏层中包含了5个隐藏单元(hidden unit).由于输入层不涉及计算,图3.3中的多层感知机的层数为2.由图3.3可见,隐藏 ...
ASP.NET FileUpload 上传文件类型验证
验证的核心方法: public static bool IsAllowedExtension(FileUpload hifile) { //原方法是这样的,会提示找不到文件 //System.IO.F ...
DataFrame loc和iloc的区别
loc loc是select by label(name) loc函数是选择dataframe中那一行的index == k的 iloc loc是select by position loc函数是选择 ...
Catalyst3560密码破解
1.关机:2.将设备MODE键按住,然后开机,进入switch:switch: flash_initInitializing Flash...flashfs[0]: 7 files, 2 direct ...
java里自定义分页查询的尝试
public String list(){ try { LoginUser loginUser = getLoginUser();//获取当前登录用户 if(curpage<=0){ curpa ...

loss训练技巧

loss训练技巧的更多相关文章

随机推荐

热门专题