Caffe solver.prototxt学习
在solver解决下面的四个问题:
a.训练的记录(bookkeeping),创建用于training以及test的网络结构;
b.使用前向以及反向过程对training网络参数学习的过程;
c.对testing网络进行评价;
d.优化过程中模型中间结果的快照及求解的状态;
下面从这个四个方面介绍solver.prototxt文件中常见参数的含义:
1.net,type;base_lr,lr_polilcy
net: 用于声明training 以及test的网络结构定义在哪个文件中,所以它是一个文件名,一般用caffe的相对路径。这个还可以分开用train_net以及test_net,相当于在两个文件中分别给出了训练以及测试网络的结构定义。
type:solver的类型。深度网络的目标函数一般是非凸的,一般用基于梯度下降的方法来解。caffe中支持的基于梯度的方法包括: SGD(default),AdaDelt,AdaGrad,Adam,NAG.每个方法需要设定不同的参数,这里首先分析SGD的参数:
base_lr:学习率(learning rate),也就是梯度算法中的步长,这个是最初的步长。
lr_policy: 按照某种方式对梯度算法中的步长进行更新;包含下面的方式:fixed,step,exp,inv,multistep,poly,sigmoid对这些的详细描述可以参考这个很赞的blog. 这里描述常用的基于迭代次数的方式:step。她根据iter对步长进行更新,这种方式还对应一个stepsize参数,它的值是一个整数,表示stepsize次迭代对步长进行一次更新;公式为base_lr*gamma^(iter/stepsize)
gamma:这个参数就是在上面的公式中更新学习率的公式中用到的参数,要注意的是不同的方式有不同参数,有些方法中可能不存在这个参数。
momentum(mu):它表示的是本次更新权重用的梯度对上一次梯度的保留的比例。
2.max_iter,display,weight_decay
max_iter:这个表示网络前向以及后向学习算法的次数。
display: 参数是一个整数,表明多少次对结果进行一此展示。如果设为0就不会打印。
weight_decay:权重正则项的参数,它是为了防止模型的过拟。通常而言,一般样本越多,值越小;模型越大(更深,滤波器尺寸越大等),值越大。
3.test_iter, test_interval:
test_iter:测试网络中测试的时候所用的batch数,一般保证test_iter*batch>测试样本数;
test_interval:每隔多少个iter对测试网络进行一个评价。
4.snapshot,snapshot_prefix.
snapshot:多少个iter保存一次网络的快照,这个有利于resume;
snapshot_prefix:快照存储的位置以及名称。
还可以设置snapshot_diff,snapshot_format.是否保存梯度值以及保存的类型。
Reference
[1]http://www.cnblogs.com/denny402/p/5074049.html
[2]http://stackoverflow.com/questions/32177764/what-is-weight-decay-meta-parameter-in-caffe?noredirect=1&lq=1
[3]http://caffe.berkeleyvision.org/tutorial/solver.html
Caffe solver.prototxt学习的更多相关文章
- caffe solver.prototxt 生成
from caffe.proto import caffe_pb2 s = caffe_pb2.SolverParameter() path='/home/xxx/data/' solver_file ...
- 4.caffe:train_val.prototxt、 solver.prototxt 、 deploy.prototxt( 创建模型与编写配置文件)
一,train_val.prototxt name: "CIFAR10_quick" layer { name: "cifar" type: "Dat ...
- caffe之solver.prototxt文件参数设置
caffe solver参数意义与设置 batchsize:每迭代一次,网络训练图片的数量,例如:如果你的batchsize=256,则你的网络每迭代一次,训练256张图片:则,如果你的总图片张数为1 ...
- caffe 参数介绍 solver.prototxt
转载自 http://blog.csdn.net/cyh_24/article/details/51537709 solver.prototxt net: "models/bvlc_alex ...
- caffe源码学习之Proto数据格式【1】
前言: 由于业务需要,接触caffe已经有接近半年,一直忙着阅读各种论文,重现大大小小的模型. 期间也总结过一些caffe源码学习笔记,断断续续,这次打算系统的记录一下caffe源码学习笔记,巩固一下 ...
- caffe solver 配置详解
caffe solver通过协调网络前向推理和反向梯度传播来进行模型优化,并通过权重参数更新来改善网络损失求解最优算法,而solver学习的任务被划分为:监督优化和参数更新,生成损失并计算梯度.caf ...
- caffe源码学习
本文转载自:https://buptldy.github.io/2016/10/09/2016-10-09-Caffe_Code/ Caffe简介 Caffe作为一个优秀的深度学习框架网上已经有很多内 ...
- caffe solver configuration
(用到一个加一个, 并非完整的介绍) lr_policy 基本的learning rate 在solver.prototxt中由参数base_lr配置. 配合lr_policy和其余的一些参数制定le ...
- 【转】贾扬清:希望Caffe成为深度学习领域的Hadoop
[转:http://www.csdn.net/article/2015-07-07/2825150] 在深度学习(Deep Learning)的热潮下,Caffe作为一个高效.实用的深度学习框架受到了 ...
随机推荐
- hdu1385 Minimum Transport Cost 字典序最小的最短路径 Floyd
求最短路的算法最有名的是Dijkstra.所以一般拿到题目第一反应就是使用Dijkstra算法.但是此题要求的好几对起点和终点的最短路径.所以用Floyd是最好的选择.因为其他三种最短路的算法都是单源 ...
- H5 微信公众号 监听返回事件
/*-----监听返回事件-----*/ function pushHistory(returnUrl,currentUrl,currentTitle) { window.addEventListen ...
- 引用css样式的书写格式
css的书写格式一共有三种 行内样式:意思是在行内中写样式 例如说<p style="color:red">用行内样式编写我的颜色</p> 只适用于< ...
- 04--深入探讨C++中的引用
深入探讨C++中的引用 引用是C++引入的新语言特性,是C++常用的一个重要内容之一,正确.灵活地使用引用,可以使程序简洁.高效.我在工作中发现,许多人使用它仅仅是想当然,在某些微 ...
- 关于Linux操作系统层次结构分析
本文转自http://www.jb51.net/LINUXjishu/214104.html 首先来看一张图(这是Linux操作系统的大致层次结构): 最内层是硬件,最外层是用户常用的应用,比如说fi ...
- C51端口结构和工作原理(转)
一.P0端口的结构及工作原理 P0端口8位中的一位结构图见下图: 由上图可见,P0端口由锁存器.输入缓冲器.切换开关.一个与非门.一个与门及场效应管驱动电路构成.再看图的右边,标号为P0.X引脚的 ...
- JavaScript数组操作函数
A: 购物车会有这样的情况,购物车是一个数组,每一个商品是一个对象,分别对应一个id,和一个num ,然后改变商品的时候需要和购物车对比,如果购物车中有这个商品的话,就只改变这个商品对应的id的num ...
- Java中数组的概念与特点
数组概念: 数组其实也是一个容器,可以用来存储固定个数相同类型的数据数组的定义 数组中存储的数据叫做元素 特点: 1.数组是引用数据类型 2.数组的长度是固定的,也就是说可以存储固定个数的数据 3.数 ...
- 企业级任务调度框架Quartz(8) 线程在Quartz里的意义(2)
前序: 做为企业里的任务调度框架,出现同一时间点同时运行两个任务,或者两个任务因为开始的执行时间和执行时间的长短,很有可能出现任务并发执行的情况:因为Quartz的实现是采用java编程,那 ...
- Django入门--模板变量、过滤器及静态文件
一.模板变量 我们登录页面后,在页面上会显示姓名等信息,姓名就是模板变量,用来显示登陆者的名字,Django对这些数据进行处理后,返回给前端页面,前端页面进行渲染. 1.模板变量语法规则 1)在htm ...