caffe 中base_lr、weight_decay、lr_mult、decay_mult代表什么意思？

在机器学习或者模式识别中,会出现overfitting,而当网络逐渐overfitting时网络权值逐渐变大,因此,为了避免出现overfitting,会给误差函数添加一个惩罚项,常用的惩罚项是所有权重的平方乘以一个衰减常量之和.其用来惩罚大的权值. The learning rate is a parameter that determines how much an updating step influences the current value of the weights. Whil…

在Caffe中实现模型融合

模型融合有的时候我们手头可能有了若干个已经训练好的模型,这些模型可能是同样的结构,也可能是不同的结构,训练模型的数据可能是同一批,也可能不同.无论是出于要通过ensemble提升性能的目的,还是要设计特殊作用的网络,在用Caffe做工程时,融合都是一个常见的步骤. 比如考虑下面的场景,我们有两个模型,都是基于resnet-101,分别在两拨数据上训练出来的.我们希望把这两个模型的倒数第二层拿出来,接一个fc层然后训练这个fc层进行融合.那么有两个问题需要解决:1)两个模型中的层的名字都是相同的…

caffe中lenet_solver.prototxt配置文件注解

caffe框架自带的例子mnist里有一个lenet_solver.prototxt文件,这个文件是具体的训练网络的引入文件,定义了CNN网络架构之外的一些基础参数,如总的迭代次数.测试间隔.基础学习率.基础学习率的更新策略.训练平台(GPU或CPU)等. # The train/test net protocol buffer definition //对训练和测试网络的定义 //网络的路径,可以使用绝对路径或者相对路径 net: "D:/Software/Caffe/caffe-master…

caffe中权值初始化方法

首先说明:在caffe/include/caffe中的 filer.hpp文件中有它的源文件,如果想看,可以看看哦,反正我是不想看,代码细节吧,现在不想知道太多,有个宏观的idea就可以啦,如果想看代码的具体的话,可以看:http://blog.csdn.net/xizero00/article/details/50921692,写的还是很不错的(不过有的地方的备注不对,不知道改过来了没). 文件 filler.hpp提供了7种权值初始化的方法,分别为:常量初始化(constant).高斯分布初…

caffe中各层的作用:

关于caffe中的solver: cafffe中的sover的方法都有: Stochastic Gradient Descent (type: "SGD"), AdaDelta (type: "AdaDelta"), Adaptive Gradient (type: "AdaGrad"), Adam (type: "Adam"), Nesterov's Accelerated Gradient (type: "Nes…

caffe中的Accuracy+softmaxWithLoss

转:http://blog.csdn.net/tina_ttl/article/details/51556984 今天才偶然发现,caffe在计算Accuravy时,利用的是最后一个全链接层的输出(不带有acitvation function),比如:alexnet的train_val.prototxt.caffenet的train_val.prototxt 下图是这两个网络训练配置文件(prototxt文件)计算Accuray的配置文件截图的截图(对于该部分,alexnet和caffenet是…

caffe中LetNet-5卷积神经网络模型文件lenet.prototxt理解

caffe在 .\examples\mnist文件夹下有一个 lenet.prototxt文件,这个文件定义了一个广义的LetNet-5模型,对这个模型文件逐段分解一下. name: "LeNet" //网络的名称是LeNet layer { //定义一个网络层 name: "data" //定义该网络层的名称为 data type: "Input" //定义网络层的类型是输入层 top: "data" //定义网络层的输出…

【神经网络与深度学习】如何在Caffe中配置每一个层的结构

如何在Caffe中配置每一个层的结构最近刚在电脑上装好Caffe,由于神经网络中有不同的层结构,不同类型的层又有不同的参数,所有就根据Caffe官网的说明文档做了一个简单的总结. 1. Vision Layers 1.1 卷积层(Convolution) 类型:CONVOLUTION 例子 layers { name: "conv1" type: CONVOLUTION bottom: "data" top: "conv1" blobs_lr:…

（原）torch和caffe中的BatchNorm层

转载请注明出处: http://www.cnblogs.com/darkknightzh/p/6015990.html BatchNorm具体网上搜索. caffe中batchNorm层是通过BatchNorm+Scale实现的,但是默认没有bias.torch中的BatchNorm层使用函数SpatialBatchNormalization实现,该函数中有weight和bias. 如下代码: local net = nn.Sequential() net:add(nn.SpatialBatch…

CAFFE中训练与使用阶段网络设计的不同

神经网络中,我们通过最小化神经网络来训练网络,所以在训练时最后一层是损失函数层(LOSS), 在测试时我们通过准确率来评价该网络的优劣,因此最后一层是准确率层(ACCURACY). 但是当我们真正要使用训练好的数据时,我们需要的是网络给我们输入结果,对于分类问题,我们需要获得分类结果,如下右图最后一层我们得到的是概率,我们不需要训练及测试阶段的LOSS,ACCURACY层了. 下图是能过$CAFFE_ROOT/python/draw_net.py绘制$CAFFE_ROOT/models/caf…

caffe 中 plot accuracy和loss, 并画出网络结构图

plot accuracy + loss 详情可见:http://www.2cto.com/kf/201612/575739.html 1. caffe保存训练输出到log 并绘制accuracy loss曲线: 之前已经编译了matcaffe 和 pycaffe,caffe中其实已经自带了这样的小工具.caffe-master/tools/extra/parse_log.sh caffe-master/tools/extra/extract_seconds.py和 caffe-master/t…

caffe中ConvolutionLayer的前向和反向传播解析及源码阅读

一.前向传播在caffe中,卷积层做卷积的过程被转化成了由卷积核的参数组成的权重矩阵weights(简记为W)和feature map中的元素组成的输入矩阵(简记为Cin)的矩阵乘积W * Cin.在进行乘积之前,需要对卷积核的参数和feature map作处理,以得到W和Cin. 下面用一个例子来说名上述两个过程.假设某一卷积层输入为c X h X w = 3 X 8 X 8的feature map,卷积核大小h1 X w1 = 2 X 2,个数c1 = 4,stride = 1,pad_h…

caffe中batch norm源码阅读

1. batch norm 输入batch norm层的数据为[N, C, H, W], 该层计算得到均值为C个,方差为C个,输出数据为[N, C, H, W]. <1> 形象点说,均值的计算过程为: (1) 即对batch中相同索引的通道数取平均值,所以最终计算得到的均值为C个,方差的计算过程与此相同. <2> batch norm层的作用: a. 均值:(2) b. 方差:(3) c. 归一化:(4) 2. caffe中batch_norm_layer.cpp中的LayerSe…

caffe中的BatchNorm层

在训练一个小的分类网络时,发现加上BatchNorm层之后的检索效果相对于之前,效果会有提升,因此将该网络结构记录在这里,供以后查阅使用: 添加该层之前: layer { name: "conv1" type: "Convolution" bottom: "data" top: "conv1" param { lr_mult: decay_mult: } param { lr_mult: decay_mult: } convo…

在caffe中使用hdf5的数据

caffe默认使用的数据格式为lmdb文件格式,它提供了把图片转为lmdb文件格式的小程序,但是呢,我的数据为一维的数据,我也要分类啊,那我怎么办?肯定有办法可以转为lmdb文件格式的,我也看了一些源代码,好像是把我们的数据变为Datum的格式(这是一个用google protocol buffer搞的一个数据结构类),然后再把它存为lmdb文件.在Datum里面,label为Int类型,要是我们label为符点数,我还怎么用??(不过看到Datum里面有个float_data的东西,怎么用啊,…

caffe中python接口的使用

下面是基于我自己的接口,我是用来分类一维数据的,可能不具通用性: (前提,你已经编译了caffe的python的接口) 添加 caffe塻块的搜索路径,当我们import caffe时,可以找到. 对于这一步,一般我们都会把 cafffe 模块的搜索路经永久地加到先加$PYTHONPATH中去,如可以把 export PYTHONPATH=/path/to/caffe/python:$PYTHONPATH 写到 .bashrc中.而下面的做法,只是临时的做法哦: improt sys #sys.…

（原）caffe中通过图像生成lmdb格式的数据

转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5909121.html 参考网址: http://www.cnblogs.com/wangxiaocvpr/p/5096265.html 可以根据caffe-master\examples\imagenet \readme.md进行理解. 1 生成LmDB格式文件 caffe中通过图像生成lmdb格式文件的程序为examples/imagenet/create_imagenet.sh.该文件调用bui…

TensorFlow与caffe中卷积层feature map大小计算

刚刚接触Tensorflow,由于是做图像处理,因此接触比较多的还是卷及神经网络,其中会涉及到在经过卷积层或者pooling层之后,图像Feature map的大小计算,之前一直以为是与caffe相同的,后来查阅了资料发现并不相同,将计算公式贴在这里,以便查阅: caffe中: TF中:…

caffe中google protobuf使用问题

之前caffe中protobuf的版本是3.5.0,可在ternimal下执行:protoc --version 查看当前protobuf版本. 由于另外安装了Tensorflow之后(也有可能是安装了Anaconda,导致protobuf版本发生变化),默认对protobuf版本进行了变化,变成3.1.0.于是在caffe中make的时候出现错误,错误提示如下: 将protobuf版本改变为3.5.0后即可解决问题.具体解决办法: 首先明确你系统中到底有几个protobuf版本,一般系统下在:…

caffe 中 python 数据层

caffe中大多数层用C++写成. 但是对于自己数据的输入要写对应的输入层,比如你要去图像中的一部分,不能用LMDB,或者你的label 需要特殊的标记. 这时候就需要用python 写一个输入层. 如在fcn 的voc_layers.py 中有两个类: VOCSegDataLayer SBDDSegDataLayer 分别包含:setup,reshape,forward, backward, load_image, load_label. 不需要backward 没有参数更新. import…

caffe中关于（ReLU层，Dropout层，BatchNorm层，Scale层）输入输出层一致的问题

在卷积神经网络中.常见到的激活函数有Relu层 layer { name: "relu1" type: "ReLU" bottom: "pool1" top: "pool1" }其中可选参数为:negative_slope:默认为0. 对标准的ReLU函数进行变化,如果设置了这个值,那么数据为负数时,就不再设置为0,而是用原始数据乘以negative_slope relu层有个很大的特点:bottom(输入)和top(输出)一…

Batch Normalization 与 Caffe中的相关layer

在机器学习领域,通常假设训练数据与测试数据是同分布的,BatchNorm的作用就是深度神经网络训练过程中, 使得每层神经网络的输入保持同分布. 原因:随着深度神经网络层数的增加,训练越来越困难,收敛越来越慢.对于Sigmod激活函数,这意味着输入通常落在了两端. BN的作用:将每层的输入变为标准正态分布,经过BN拉伸后,使得激活值大部分落入非线性函数的线性区内,其对应的导数远离饱和区,加快收敛. 参考:http://blog.csdn.net/malefactor/article/detai…

caffe中使用crop_size剪裁训练图片

layer { name: "data" type: "Data" top: "data" top: "label" include { phase: TRAIN } transform_param { mirror: true crop_size: 600 mean_file: "examples/images/imagenet_mean.binaryproto" } data_param { sourc…

怎样在caffe中添加layer以及caffe中triplet loss layer的实现

关于triplet loss的原理.目标函数和梯度推导在上一篇博客中已经讲过了.详细见:triplet loss原理以及梯度推导.这篇博文主要是讲caffe下实现triplet loss.编程菜鸟.假设有写的不优化的地方,欢迎指出. 1.怎样在caffe中添加新的layer 新版的caffe中添加新的layer.变得轻松多了.概括说来.分四步: 1)在./src/caffe/proto/caffe.proto 中添加相应layer的paramter message. 2)在./include/…

caffe 中如何打乱训练数据

第一: 可以选择在将数据转换成lmdb格式时进行打乱: 设置参数--shuffle=1:(表示打乱训练数据) 默认为0,表示忽略,不打乱. 打乱的目的有两个:防止出现过分有规律的数据,导致过拟合或者不收敛. 在caffe中可能会使得,在模型进行测试时,每一个测试样本都输出相同的预测概率值. 或者,直接打乱训练文件的标签文件:train.txt 方法如下: 1)将 train_160309-train.txt按行打乱,每行内容则保持不变,命令: cd 存放文件的路径 awk 'BEGIN{ 100…

caffe中的sgd,与激活函数(activation function)

caffe中activation function的形式,直接决定了其训练速度以及SGD的求解. 在caffe中,不同的activation function对应的sgd的方式是不同的,因此,在配置文件中指定activation layer的type,目前caffe中用的最多的是relu的activation function. caffe中,目前实现的activation function有以下几种: absval, bnll, power, relu, sigmoid, tanh等几种,分别…