52161759

solver.prototxt

今天在做FCN实验的时候，发现solver.prototxt文件一直用的都是model里自带的，一直都对里面的参数不是很了解，所以今天认真学习了一下里面各个参数的意义。

DL的任务中，几乎找不到解析解，所以将其转化为数学中的优化问题。sovler的主要作用就是交替调用前向传导和反向传导 (forward & backward) 来更新神经网络的连接权值，从而达到最小化loss，实际上就是迭代优化算法中的参数。

Caffe的solver类提供了6种优化算法，配置文件中可以通过type关键字设置：

Stochastic Gradient Descent (type: “SGD”)
AdaDelta (type: “AdaDelta”)
Adaptive Gradient (type: “AdaGrad”)
Adam (type: “Adam”)
Nesterov’s Accelerated Gradient (type: “Nesterov”)
RMSprop (type: “RMSProp”)

简单地讲，solver就是一个告诉caffe你需要网络如何被训练的一个配置文件。

Solver.prototxt 流程

首先设计好需要优化的对象，以及用于学习的训练网络和测试网络的prototxt文件（通常是train.prototxt和test.prototxt文件）
通过forward和backward迭代进行优化来更新参数
定期对网络进行评价
优化过程中显示模型和solver的状态

solver参数

base_lr

这个参数代表的是此网络最开始的学习速率（Beginning Learning rate），一般是个浮点数，根据机器学习中的知识，lr过大会导致不收敛，过小会导致收敛过慢，所以这个参数设置也很重要。

lr_policy

这个参数代表的是learning rate应该遵守什么样的变化规则，这个参数对应的是字符串，选项及说明如下：

“step” - 需要设置一个stepsize参数，返回base_lr * gamma ^ ( floor ( iter / stepsize ) )，iter为当前迭代次数
“multistep” - 和step相近，但是需要stepvalue参数，step是均匀等间隔变化，而multistep是根据stepvalue的值进行变化
“fixed” - 保持base_lr不变
“exp” - 返回base_lr * gamma ^ iter, iter为当前迭代次数
“poly” - 学习率进行多项式误差衰减，返回 base_lr ( 1 - iter / max_iter ) ^ ( power )
“sigmoid” - 学习率进行sigmod函数衰减，返回 base_lr ( 1/ 1＋exp ( -gamma * ( iter - stepsize ) ) )

gamma

这个参数就是和learning rate相关的，lr_policy中包含此参数的话，需要进行设置，一般是一个实数。

stepsize

This parameter indicates how often (at some iteration count) that we should move onto the next “step” of training. This value is a positive integer.

stepvalue

This parameter indicates one of potentially many iteration counts that we should move onto the next “step” of training. This value is a positive integer. There are often more than one of these parameters present, each one indicated the next step iteration.

max_iter

最大迭代次数，这个数值告诉网络何时停止训练，太小会达不到收敛，太大会导致震荡，为正整数。

momentum

上一次梯度更新的权重，real fraction

weight_decay

权重衰减项，用于防止过拟合。

solver_mode

选择CPU训练或者GPU训练。

snapshot

训练快照，确定多久保存一次model和solverstate，positive integer。

snapshot_prefix

snapshot的前缀，就是model和solverstate的命名前缀，也代表路径。

net

path to prototxt (train and val)

test_iter

每次test_interval的test的迭代次数，假设测试样本总数为10000张图片，一次性执行全部的话效率很低，所以将测试数据分为几个批次进行测试，每个批次的数量就是batch_size。如果batch_size=100，那么需要迭代100次才能将10000个数据全部执行完，所以test_iter设置为100。

test_interval

测试间隔，每训练多少次进行一次测试。

display

间隔多久对结果进行输出

iter_size

这个参数乘上train.prototxt中的batch size是你实际使用的batch size。相当于读取batchsize * itersize个图像才做一下gradient decent。这个参数可以规避由于gpu内存不足而导致的batchsize的限制因为你可以用多个iteration做到很大的batch 即使单次batch有限。

average_loss

取多次foward的loss作平均，进行显示输出。

FCN的solver.prototxt文件

train_net: "train.prototxt"

test_net: "val.prototxt"

test_iter: 736

# make test net, but don't invoke it from the solver itself

test_interval: 999999999

display: 20

average_loss: 20

lr_policy: "fixed"

# lr for unnormalized softmax

base_lr: 1e-14

# high momentum

momentum: 0.99

# no gradient accumulation

iter_size: 1

max_iter: 100000

weight_decay: 0.0005

snapshot: 4000

snapshot_prefix: "snapshot/train"

test_initialization: false

【转】Caffe的solver文件配置的更多相关文章

【深度学习】之Caffe的solver文件配置(转载自csdn）
原文: http://blog.csdn.net/czp0322/article/details/52161759 今天在做FCN实验的时候,发现solver.prototxt文件一直用的都是mode ...
caffe(7) solver及其配置
solver算是caffe的核心的核心,它协调着整个模型的运作.caffe程序运行必带的一个参数就是solver配置文件.运行代码一般为 # caffe train --solver=*_slover ...
Caffe学习系列(7)：solver及其配置
solver算是caffe的核心的核心,它协调着整个模型的运作.caffe程序运行必带的一个参数就是solver配置文件.运行代码一般为 # caffe train --solver=*_slover ...
caffe的python接口学习（2）：生成solver文件
caffe在训练的时候,需要一些参数设置,我们一般将这些参数设置在一个叫solver.prototxt的文件里面,如下: base_lr: 0.001 display: 782 gamma: 0.1 ...
caffe之solver.prototxt文件参数设置
caffe solver参数意义与设置 batchsize:每迭代一次,网络训练图片的数量,例如:如果你的batchsize=256,则你的网络每迭代一次,训练256张图片:则,如果你的总图片张数为1 ...
caffe的python接口学习（2）生成solver文件
caffe在训练的时候,需要一些参数设置,我们一般将这些参数设置在一个叫solver.prototxt的文件里面有一些参数需要计算的,也不是乱设置. 假设我们有50000个训练样本,batch_si ...
利用Caffe训练模型(solver、deploy、train_val)+python使用已训练模型
本文部分内容来源于CDA深度学习实战课堂,由唐宇迪老师授课如果你企图用CPU来训练模型,那么你就疯了- 训练模型中,最耗时的因素是图像大小size,一般227*227用CPU来训练的话,训练1万次可 ...
利用Caffe训练模型(solver、deploy、train_val) + python如何使用已训练模型
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/5 ...
[转]caffe中solver.prototxt参数说明
https://www.cnblogs.com/denny402/p/5074049.html solver算是caffe的核心的核心,它协调着整个模型的运作.caffe程序运行必带的一个参数就是so ...

随机推荐

PAT A1017 Queueing at Bank （25 分）——队列
Suppose a bank has K windows open for service. There is a yellow line in front of the windows which ...
centos7搭建logstash
前两节已经成功完成ek的搭建,还剩最后的一个日志上传的功能依次执行如下命令 cd /home/elk wget https://artifacts.elastic.co/downloads/logs ...
上传文件，不依赖 Jquery flash 插件，用到HTML5 input 新属性实现过滤文件格式、同时上传多个文件
1.样式 2.js 3.后台处理 4.效果图一.样式 <style> .divUpload { position: relative; } .divUploadFirst { width ...
linux 修改内核参数如何生效？
Linux 操作系统修改内核参数有3种方式: 修改 /etc/sysctl.conf 文件,加入配置选项,格式为 key = value ,修改保存后调用 sysctl -p 加载新配置使用 sysc ...
Android之TCP服务器编程
推荐一个学java或C++的网站http://www.weixueyuan.net/,本来想自己学了总结出来再写博客,现在没时间,打字太慢!!!!,又想让这好东西让许多人知道. 关于网络通信:每一台电 ...
python学习总结---学习交流群里的问题总结
xml里面的过滤: <record id="action_partner_supplier_form_demo_ms" model="ir.actions.act_ ...
MVC ActionResult派生类关系图
态度决定一切,我要改变的不仅仅是技术,还有对待事情的态度! 先上个图: 由上图可知,ActionResult为根节点,其下有很多子节点!下面简单介绍下: MVC中ActionResult是Action ...
2-SAT超入门讲解
Preface 说实话2-SAT的题目我都没怎么做过,所以这里讲的都是些超入门什么的还有一些板子题,由于是暑假的时候学的所以有些我也记不清了主要学习参考自:Mancher的课件&& ...
YouTube视频下载的12个软件(Win和Mac)
如今,观看视频已经成为人们生活中重要的一部分.很多时候,我们都需要用到视频,比如教育用途.会议报告.休闲娱乐以及广告宣传等.如果你觉得有时候资源不好找的话,不放去看下YouTube.YouTube是世 ...
centos下部署NTP时间服务器同步环境记录
1)服务端部署安装所需软件包 [root@test ~]# yum -y install ntp ntpdate 服务端自己先手工同步一次时间. [root@test ~]# ntpdate ntp ...

【转】Caffe的solver文件配置