1、什么是BatchSize

Batch一般被翻译为批量，设置batch_size的目的让模型在训练过程中每次选择批量的数据来进行处理。Batch Size的直观理解就是一次训练所选取的样本数。
Batch Size的大小影响模型的优化程度和速度。同时其直接影响到GPU内存的使用情况，假如你GPU内存不大，该数值最好设置小一点。

2、为什么需要 Batch_Size？

在没有使用Batch Size之前，这意味着网络在训练时，是一次把所有的数据（整个数据库）输入网络中，然后计算它们的梯度进行反向传播，由于在计算梯度时使用了整个数据库，所以计算得到的梯度方向更为准确。但在这情况下，计算得到不同梯度值差别巨大，难以使用一个全局的学习率，所以这时一般使用Rprop这种基于梯度符号的训练算法，单独进行梯度更新。
在小样本数的数据库中，不使用Batch Size是可行的，而且效果也很好。但是一旦是大型的数据库，一次性把所有数据输进网络，肯定会引起内存的爆炸。所以就提出Batch Size的概念。

3、如何设置Batch_Size 的值？

设置BatchSize要注意一下几点：

1）batch数太小，而类别又比较多的时候，真的可能会导致loss函数震荡而不收敛，尤其是在你的网络比较复杂的时候。

2）随着batchsize增大，处理相同的数据量的速度越快。

3）随着batchsize增大，达到相同精度所需要的epoch数量越来越多。

4）由于上述两种因素的矛盾， Batch_Size 增大到某个时候，达到时间上的最优。

5）由于最终收敛精度会陷入不同的局部极值，因此 Batch_Size 增大到某些时候，达到最终收敛精度上的最优。

6）过大的batchsize的结果是网络很容易收敛到一些不好的局部最优点。同样太小的batch也存在一些问题，比如训练速度很慢，训练不容易收敛等。

7）具体的batch size的选取和训练集的样本数目相关。

8）GPU对2的幂次的batch可以发挥更佳的性能，因此设置成16、32、64、128…时往往要比设置为整10、整100的倍数时表现更优

我在设置BatchSize的时候，首先选择大点的BatchSize把GPU占满，观察Loss收敛的情况，如果不收敛，或者收敛效果不好则降低BatchSize，一般常用16，32，64等。

4、在合理范围内，增大Batch_Size有何好处？

内存利用率提高了，大矩阵乘法的并行化效率提高。
跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。

5、盲目增大 Batch_Size 有何坏处？

内存利用率提高了，但是内存容量可能撑不住了。
跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
Batch_Size 增大到一定程度，其确定的下降方向已经基本不再变化。

6、调节 Batch_Size 对训练效果影响到底如何？

Batch_Size 太小，模型表现效果极其糟糕(error飙升)。
随着 Batch_Size 增大，处理相同数据量的速度越快。
随着 Batch_Size 增大，达到相同精度所需要的 epoch 数量越来越多。
由于上述两种因素的矛盾， Batch_Size 增大到某个时候，达到时间上的最优。
由于最终收敛精度会陷入不同的局部极值，因此 Batch_Size 增大到某些时候，达到最终收敛精度上的最优

batchsize过小：每次计算的梯度不稳定，引起训练的震荡比较大，很难收敛。

batchsize过大：

（1）提高了内存利用率，大矩阵乘法并行计算效率提高。

（2）计算的梯度方向比较准，引起的训练的震荡比较小。

（3）跑完一次epoch所需要的迭代次数变小，相同数据量的数据处理速度加快。

缺点：容易内容溢出，想要达到相同精度，epoch会越来越大，容易陷入局部最优，泛化性能差。

batchsize设置：通常10到100，一般设置为2的n次方。

原因：计算机的gpu和cpu的memory都是2进制方式存储的，设置2的n次方可以加快计算速度。

深度学习中经常看到epoch、 iteration和batchsize这三个的区别：

（1）batchsize：批大小。在深度学习中，一般采用SGD训练，即每次训练在训练集中取batchsize个样本训练；
（2）iteration：1个iteration等于使用batchsize个样本训练一次；
（3）epoch：1个epoch等于使用训练集中的全部样本训练一次；

举个例子，训练集有1000个样本，batchsize=10，那么训练完整个样本集需要：
100次iteration，1次epoch。

1.当数据量足够大的时候可以适当的减小batch_size,由于数据量太大，内存不够。但盲目减少会导致无法收敛，batch_size=1时为在线学习，也是标准的SGD，这样学习，如果数据量不大，noise数据存在时，模型容易被noise带偏，如果数据量足够大，noise的影响会被“冲淡”，对模型几乎不影响。
2.batch的选择，首先决定的是下降方向，如果数据集比较小，则完全可以采用全数据集的形式。这样做的好处有两点，

1）全数据集的方向能够更好的代表样本总体，确定其极值所在。
2）由于不同权重的梯度值差别巨大，因此选取一个全局的学习率很困难。

batch size设置技巧的更多相关文章

神经网络中Batch Size的理解
直观的理解:Batch Size定义:一次训练所选取的样本数.Batch Size的大小影响模型的优化程度和速度.同时其直接影响到GPU内存的使用情况,假如你GPU内存不大,该数值最好设置小一点. 为 ...
Spark Streaming揭秘 Day21 动态Batch size实现初探(下)
Spark Streaming揭秘 Day21 动态Batch size实现初探(下) 接昨天的描述,今天继续解析动态Batch size调整的实现. 算法动态调整采用了Fix-point迭代算法, ...
探索学习率设置技巧以提高Keras中模型性能 | 炼丹技巧
学习率是一个控制每次更新模型权重时响应估计误差而调整模型程度的超参数.学习率选取是一项具有挑战性的工作,学习率设置的非常小可能导致训练过程过长甚至训练进程被卡住,而设置的非常大可能会导致过快学习到 ...
关于深度学习之中Batch Size的一点理解（待更新）
batch 概念:训练时候一批一批的进行正向推导和反向传播.一批计算一次loss mini batch:不去计算这个batch下所有的iter,仅计算一部分iter的loss平均值代替所有的. 以下来 ...
Batch Size对神经网络训练的影响
前言这篇文章非常全面细致地介绍了Batch Size的相关问题.结合一些理论知识,通过大量实验,文章探讨了Batch Size的大小对模型性能的影响.如何影响以及如何缩小影响等有关内容. 本文来 ...
Spark Streaming中动态Batch Size实现初探
本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如: ...
CSS设置技巧
一.单位和值 1.1 颜色值在网页中的颜色设置是非常重要,有字体颜色(color).背景颜色(background-color).边框颜色(border)等,设置颜色的方法也有很多种: 1.英文命令 ...
Spark Streaming揭秘 Day20 动态Batch size实现初探(上)
Spark Streaming揭秘 Day20 动态Batch size实现初探(上) 今天开始,主要是通过对动态Batch size调整的论文的解析,来进一步了解SparkStreaming的处理机 ...
WebGL或OpenGL关于模型视图投影变换的设置技巧
目录 1. 具体实例 2. 解决方案 1) Cube.html 2) Cube.js 3) 运行结果 3. 详细讲解 1) 模型变换 2) 视图变换 3) 投影变换 4) 模型视图投影矩阵 4. 存在 ...
机器学习中Batch Size、Iteration和Epoch的概念
Batch Size:批尺寸.机器学习中参数更新的方法有三种: (1)Batch Gradient Descent,批梯度下降,遍历全部数据集计算一次损失函数,进行一次参数更新,这样得到的方向能够更加 ...

随机推荐

2017年第八届蓝桥杯B组C/C++决赛题目
部分题目示意图来自网络,所以会带水印最后编辑时间: 2021年5月12日统一声明如果不写默认带有常用头文件如果不表明主函数默认表示在 void solve(){} 默认使用 using nam ...
深入理解 Serverless 计算的并发度
作者|西流(阿里云技术专家) 背景 2019 年 Berkeley 预测 Serverless 将取代 Serverful 计算[1],成为云计算的计算新范式.Serverless 为应用程序开发提供 ...
mysql备份恢复总结
mysqldump备份注:例子中的语句都是在mysql5.6下执行------------------基础------------------------一.修改my.cnf文件 vi /etc/my ...
Mycat 实现分库分表及读写分离
本文为博主原创,未经允许不得转载: Mycat 官网: http://mycat.org.cn/ MyCat 权威指南文档:http://www.mycat.org.cn/document/myca ...
0xGame 2023【WEEK1】Crypto全解
What's CBC? 题目信息 from Crypto.Util.number import * from secret import flag,key def bytes_xor(a,b): a, ...
海思Hi35xx uboot启动分析总结
前言在嵌入式linux设备中,uboot的最终目的就是启动kernel.对于uboot而言,没有人把它引导起来,所以uboot首先需要把自己加载起来,然后再去引导kernel的启动,这也就可以大致的 ...
[转帖]Nginx内置变量以及日志格式变量参数详解
https://www.cnblogs.com/wajika/p/6426270.html $args #请求中的参数值 $query_string #同 $args $arg_NAME #GET请求 ...
[转帖]深度硬核文:Nginx的301重定向处理过程分析
https://zhuanlan.zhihu.com/p/84539204 本文首发于公众号:js-mindmap 一,序言 "晚上九点,办公室里烟雾缭绕,工作进度依然没有什么进展.王二胖打 ...
[转帖]Oracle 性能优化之游标及 SQL
https://www.cnblogs.com/augus007/articles/9273236.html 一.游标我们要先说一下游标这个概念. 从 Oracle 数据库管理员的角度上说,游标是对 ...
【转帖】如何使用route管理路由表
这里是引用 route快捷使用方法我们一般管理路由有使用route命令本身route使用大致有两种方法:但其实在实际操作中,我们熟练掌握一种方法就可以了. route 有以下6种操作方法: 1) ...

batch size设置技巧