epoch,iteration,batch,batch

epoch：训练时，所有训练图像通过网络训练一次（一次前向传播+一次后向传播）；测试时，所有测试图像通过网络一次（一次前向传播）。Caffe不用这个参数。

batch_size：1个batch包含的图像数目，通常设为2的n次幂，常用的包括64,128,256。

网络较小时选用256，较大时选用64。

iteration：训练时，1个batch训练图像通过网络训练一次（一次前向传播+一次后向传播），每迭代一次权重更新一次；测试时，1个batch测试图像通过网络一次（一次前向传播）。

三者之间的关系：iterations =
epochs×(images /
batch_size)，所以1个epoch包含的

iteration次数=样本数量/batch_size;

以Caffe的mnist为例（具体参数见相应的prototxt文件）：

training_images=60k，batch_size=64, maximum_iterations=
10k，test
_images=10k，batch_size=100, test_iterations=100：

在这个参数设置下，训练时经历了10.6个epoch，测试时100次iteration（1个epoch）恰好可以遍历整个测试集。

注意：上面例子中如果训练时maximum_iterations=
10k，那么将会有10k×64=640k幅图像参与训练，乍一看这个是错的，因为640k远远大于训练集60k。事实上这是没问题的，当剩余的训练样本不够一个batch时，Caffe会带着这些剩余的样本然后重头开始再取一个batch。所以在设置Training和Testing的参数时需要注意，训练的某些参数可以不整除（比如10.6个epoch），但测试时设置的参数最好要能整除（测试网络时正好遍历完所有测试样本是最理想的情况）。

测试的时候，test_batch_size×test_iterations>number
of test
images也不会出错，甚至这样做也可以（这种情况下已经测试过的图像会组成新的batch重复测试），不过设置参数时最好还是test_batch_size×test_iterations=number
of test images。

在caffe中很多预训练好的模型的iteration都是40000，fast_rcnn那个代码也是40000

epoch,iteration,batch,batch_size的更多相关文章

DL中epoch、batch等的意义【转载】
转自:深度学习中 number of training epochs 中的 epoch到底指什么? - 知乎 https://www.zhihu.com/question/43673341 1. (1 ...
epoch iteration batchsize
深度学习中经常看到epoch. iteration和batchsize,下面按自己的理解说说这三个的区别: (1)batchsize:批大小.在深度学习中,一般采用SGD训练,即每次训练在训练集中取b ...
深度学习中 epoch，[batch size], iterations概念解释
one epoch:所有的训练样本完成一次Forword运算以及一次BP运算 batch size:一次Forword运算以及BP运算中所需要的训练样本数目,其实深度学习每一次参数的更新所需要损失函数 ...
step(iter)、epoch、batch size之间的关系
转自:https://blog.csdn.net/wcy23580/article/details/90082221
一文读懂神经网络训练中的Batch Size，Epoch，Iteration
一文读懂神经网络训练中的Batch Size,Epoch,Iteration 作为在各种神经网络训练时都无法避免的几个名词,本文将全面解析他们的含义和关系. 1. Batch Size 释义:批大小, ...
batch、epoch、iteration
深度学习的优化算法,说白了就是梯度下降.每次的参数更新有两种方式. 第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度.这种方法每更新一次参数都要把数据集里的所有样本都看一遍, ...
深度学习中的batch、epoch、iteration的含义
深度学习的优化算法,说白了就是梯度下降.每次的参数更新有两种方式. 第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度.这种方法每更新一次参数都要把数据集里的所有样本都看一遍, ...
TensorFlow走过的坑之---数据读取和tf中batch的使用方法
首先介绍数据读取问题,现在TensorFlow官方推荐的数据读取方法是使用tf.data.Dataset,具体的细节不在这里赘述,看官方文档更清楚,这里主要记录一下官方文档没有提到的坑,以示" ...
从头学pytorch(十九):批量归一化batch normalization
批量归一化论文地址:https://arxiv.org/abs/1502.03167 批量归一化基本上是现在模型的标配了. 说实在的,到今天我也没搞明白batch normalize能够使得模型训练 ...

随机推荐

Java 普通方法和构造方法的区别
构造方法: ①方法名和类名相同 ②在方法名的前面没有返回值类型的声明 ③在方法中不能使用return语句返回一个值 ④在创建对象时,要调用new,如:book b1=new book(); ⑤当没有 ...
Object Detection(RCNN, SPPNet, Fast RCNN, Faster RCNN, YOLO v1)
RCNN -> SPPNet -> Fast-RCNN -> Faster-RCNN -> FPN YOLO v1-v3 Reference RCNN: Rich featur ...
LOL数值分析
http://blog.sina.com.cn/s/blog_704133cb01018hud.html 为了从理论层面提高自己打<英雄联盟>的水平,再加上自己也有这方面的兴趣,所以我最近 ...
了解HTTP协议和TCP协议
HTTP(超文本传输协议),互联网上应用最为广泛的一种网络协议.所有的www文件都必须遵守这个标准.HTTP是一个客户端和服务端请求和应答的标准(TCP):客户通过浏览器发起一个到服务器上指定端口的H ...
深入V8引擎-Time模块介绍
积跬步,行千里,先从最简单的开始写. 这一篇介绍V8中的时间模块,与libuv粗糙的update_loop_time方法不同,V8有一套独立完整的类负责管理时间. 该类位于src/base/platf ...
[题解]（组合数学/gcd）luogu_P3166数三角形
首先转化为ans=所有的组合方式 - 在同一水平/竖直线上 - 在同一斜线上主要考虑在同一斜线上的情况首先想到枚举斜率然后在坐标系内平移,以(0,0)为起点,每条线上的点数应该是gcd(x,y)比 ...
Codeforces 1159E（拓扑序、思路）
要点序列上各位置之间的关系常用连边的手段转化为图的问题. 经过一番举例探索不难发现当存在两条有向边交叉时是非法的. -1是模糊的,也就是填多少都可以,那为了尽量避免交叉我们贪心地让它后面那个连它就行 ...
NET?.NET Framework？.NET Core?
什么是.NET?什么是.NET Framework?什么是.NET Core? https://www.cnblogs.com/1996V/p/9037603.html 什么是.NET?什么是.NET ...
关于Spring配置文件xml文档的schema约束
最开始使用spring框架的时候,对于其配置文件xml,只是网上得知其使用方法,而不明其意.最近想着寻根问底的探究一下.以下是本文主要内容: 1.配置文件示例. <?xml version=&q ...
SyntaxHighlighter
SyntaxHighlighter uses separate syntax files called brushes to define its highlighting functionality ...

epoch,iteration,batch,batch_size

epoch,iteration,batch,batch_size的更多相关文章

随机推荐

热门专题