caffe深度学习进行迭代的时候loss曲线开始震荡原因

1:训练的batch_size太小

1. 当数据量足够大的时候可以适当的减小batch_size,由于数据量太大，内存不够。但盲目减少会导致无法收敛，batch_size=1时为在线学习。

2. batch的选择，首先决定的是下降方向，如果数据集比较小，则完全可以采用全数据集的形式。这样做的好处有两点，

1）全数据集的方向能够更好的代表样本总体，确定其极值所在。

2）由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。

3. 增大batchsize的好处有三点：

1）内存的利用率提高了，大矩阵乘法的并行化效率提高。

2）跑完一次epoch(全数据集)所需迭代次数减少，对于相同的数据量的处理速度进一步加快。

3）一定范围内，batchsize越大，其确定的下降方向就越准，引起训练震荡越小。

4. 盲目增大的坏处：

1）当数据集太大时，内存撑不住。

2）batchsize增大到一定的程度，其确定的下降方向已经基本不再变化。

总结：

1）batch数太小，而类别又比较多的时候，可能会导致loss函数震荡而不收敛，尤其是在你的网络比较复杂的时候。

2）随着batchsize增大，处理相同的数据量的速度越快。

3）随着batchsize增大，达到相同精度所需要的epoch数量越来越多。

4）由于上述两种因素的矛盾， Batch_Size 增大到某个时候，达到时间上的最优。

5）过大的batchsize的结果是网络很容易收敛到一些不好的局部最优点。同样太小的batch也存在一些问题，比如训练速度很慢，训练不容易收敛等。

6）具体的batch size的选取和训练集的样本数目相关
---------------------
作者：Bruve_y
来源：CSDN
原文：https://blog.csdn.net/yuanlunxi/article/details/79378301
版权声明：本文为博主原创文章，转载请附上博文链接！

caffe深度学习进行迭代的时候loss曲线开始震荡原因的更多相关文章

Caffe 深度学习框架上手教程
Caffe 深度学习框架上手教程 blink 15年1月 Caffe (CNN, deep learning) 介绍 Caffe -----------Convolution Architec ...
【转】[caffe]深度学习之图像分类模型AlexNet解读
[caffe]深度学习之图像分类模型AlexNet解读原文地址:http://blog.csdn.net/sunbaigui/article/details/39938097 本文章已收录于: ...
[转]Caffe 深度学习框架上手教程
Caffe 深度学习框架上手教程机器学习Caffe caffe 原文地址:http://suanfazu.com/t/caffe/281 blink 15年1月 6 Caffe448是一个清 ...
supervessel-免费云镜像︱GPU加速的Caffe深度学习开发环境
开发环境介绍在SuperVessel云上,我们为大家免费提供当前火热的caffe深度学习开发环境.SuperVessel的Caffe有如下优点: 1) 免去了繁琐的Caffe环境的安装配置,即申请即 ...
[caffe]深度学习之图像分类模型VGG解读
一.简单介绍 vgg和googlenet是2014年imagenet竞赛的双雄,这两类模型结构有一个共同特点是go deeper.跟googlenet不同的是.vgg继承了lenet以及alexnet ...
Ubuntu 14.04 安装caffe深度学习框架
简介:如何在ubuntu 14.04 下安装caffe深度学习框架. 注:安装caffe时一定要保持网络状态好,不然会遇到很多麻烦.例如下载不了,各种报错. 一.安装依赖包 $ sudo apt-ge ...
caffe︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization
一.深度学习中常用的调节参数本节为笔者上课笔记(CDA深度学习实战课程第一期) 1.学习率步长的选择:你走的距离长短,越短当然不会错过,但是耗时间.步长的选择比较麻烦.步长越小,越容易得到局部最优 ...
Caffe深度学习计算框架
Caffe | Deep Learning Framework是一个清晰而高效的深度学习框架,其作者是博士毕业于UC Berkeley的 Yangqing Jia,目前在Google工作.Caffe是 ...
Caffe 深度学习框架介绍
转自:http://suanfazu.com/t/caffe/281 Caffe是一个清晰而高效的深度学习框架,其作者是博士毕业于UC Berkeley的贾扬清,目前在Google工作. Caffe是 ...

随机推荐

NodeJS websocket qr based on location
https://juejin.im/post/5a5728436fb9a01c982c7d93 http://www.cnblogs.com/panhe-xue/p/5902108.html---br ...
[cloud][sdn] neutron了解
了解 neutron 文档:https://yeasy.gitbooks.io/openstack_understand_neutron/content/ LB讲的不细.DVR讲的不清晰. 读了全文之 ...
day4_高效处理文件
read()将文件内容从磁盘中全部读出,放到内存,再给cpu处理,性能低,如果文件量大,很容易内存溢出或卡死. 高效方式: 方式一:一般不用的,代码行多 f = open('users.txt','r ...
Oracle 锁的等级
ORACLE里锁有以下几种模式: 0:none 1:null 空 2:Row-S 行共享(RS):共享表锁,sub share 3:Row-X 行独占(RX):用于行的修改,sub exclusive ...
elastic search范围查询
queryBuilder.must(QueryBuilders.rangeQuery("pt_longitude").from(minLongitude).to(maxLongit ...
JavaScript indexOf() 方法
定义和用法 indexOf() 方法可返回某个指定的字符串值在字符串中首次出现的位置. 语法 stringObject.indexOf(searchvalue,fromindex) 说明该方法将从头 ...
嵌入式Qt4.8.0支持ttf字库，并显示中文
引言最近在做QT项目发现中文没法显示,于是百度QT嵌入式显示中文,基本上提示的都是把ttf字库转换为QPF(QT专门支持二进制的),发现这个qpf本身制作就很麻烦,按照网上的做法实实在在来了一边,发 ...
关于linux下mysql安装和卸载
卸载:https://www.cnblogs.com/Lenbrother/articles/6203620.html 卸载Mysql 找到了这篇文章:http://zhangzifan.com/ce ...
RN animated缩放动画
效果图: 代码: import React, {Component} from 'react'; import { AppRegistry, StyleSheet, Text, Animated, T ...
SQL Server 安装好后 Always On群组配置
需要对SQL Server必要的端口打开Windows防火墙的入站规则,比如TCP- 1433端口等. 特别注意:由于AG默认需要用到TCP-5022端口,所以该端口务必保证在Windows防火墙中开 ...

caffe深度学习进行迭代的时候loss曲线开始震荡原因

caffe深度学习进行迭代的时候loss曲线开始震荡原因的更多相关文章

随机推荐

热门专题