Caffe的loss layer(转)
英文可查:地址
1.SoftmaxWithLoss
对一对多的分类任务计算多项逻辑斯蒂损失,并通过softmax传递预测值,来获得各类的概率分布。该层可以分解为SoftmaxLayer+MultinomialLogisticLossLayer,但它的梯度计算在数值上更为稳健。在测试时,该层可用SoftmaxLayer替代。
前向传播
bottom: 1.(N×C×H×W)维的预测得分x,N是batch数,类别总数为K=CHW,目前看到的SoftmaxWithLossLayer的bottom一般是一个InnerProduct层,所以K是写在一起的。该层将这些得分通过softmax函数(多项logistic回归模型)映射为概率分布,n∈[0, 1, …, N-1],k、k’∈[0, 1, …, K-1];
2.(N×1×1×1)维的标签l,,表示这个bacth中各样本的正确标签。
top:(1×1×1×1)维,对softmax输出类别概率的交叉熵分类损失
。
反向传播
top:(1×1×1×1)维,该blob的微分就是loss_weight λ,λ是该层输出 的系数,整个网络的损失为
,这样
。
bottom: 1.(N×C×H×W)维的预测得分x,反向计算微分;
2.(N×1×1×1)维的标签,忽略。
另外可参考一篇很好的介绍文章:http://blog.csdn.net/u012162613/article/details/44239919
2.EuclideanLoss
对回归任务计算欧氏距离(L2)损失,可用于最小二乘回归任务。
前向传播
bottom: 1.(N×C×H×W)维的预测,
2.(N×C×H×W)维的真实结果,
top:(1×1×1×1)维的欧氏距离损失:
反向传播
top:(1×1×1×1)维,该blob的微分就是loss_weight λ,λ是该层输出 的系数,整个网络的损失为
,这样
。
bottom: 1.(N×C×H×W)维的预测,反向计算微分
;
2.(N×C×H×W)维的预测,反向计算微分
。
3.HingeLoss
对一对多的分类任务计算铰链损失。
前向传播
bottom: 1.(N×C×H×W)维的预测t,blob值的范围是,表示对K=CHW中每个类的预测得分。在SVM中,
是D维特征
和超平面参数
的内积
,因此只有一个InnerProductLayer(num_output = D)提供预测到HingeLossLayer中的网络就相当于一个SVM;
2.(N×1×1×1)维的真实标签l,。
top:(1×1×1×1)维的铰链损失:,对应于
正规化,默认是L1正规化,也可以用L2正规化,
。
反向传播
top:(1×1×1×1)维,该blob的微分就是loss_weight λ,λ是该层输出 的系数,整个网络的损失为
,这样
。
bottom: 1.(N×C×H×W)维的预测得分t,反向计算微分;
2.(N×1×1×1)维的标签,忽略。
4.SigmoidCrossEntropyLoss
计算交叉熵(逻辑斯蒂)损失,通常用于以概率形式预测目标。该层可以分解为SigmoidLayer+CrossEntropyLayer,但它的梯度计算在数值上更为稳健。在测试时,该层可用SigmoidLayer替代。
前向传播
bottom: 1.(N×C×H×W)维的预测得分,是用sigmoid函数
的概率预测
;
2.(N×C×H×W)维的真实结果,。
top:(1×1×1×1)维的交叉熵损失:。
反向传播
top:(1×1×1×1)维,该blob的微分就是loss_weight λ,λ是该层输出 的系数,整个网络的损失为
,这样
。
bottom: 1.(N×C×H×W)维的预测得分x,反向计算微分;
2.(N×1×1×1)维的标签,忽略。
5.MultinomialLogisticLossLayer
对一对多的分类任务计算多项逻辑斯蒂损失,直接将预测的概率分布作为输入。当预测并不是概率分布时应该用SoftmaxWithLossLayer,因为它在计算多项逻辑斯蒂损失前通过SoftmaxLayer将预测映射为分布。
前向传播
bottom: 1.(N×C×H×W)维的预测得分,blob值的范围是[0, 1],表示对K=CHW个类中每个类的预测概率。每个预测向量
之和为1,
;
2.(N×1×1×1)维的标签l,,表示这个bacth中各样本的正确标签。
top:(1×1×1×1)维的多项逻辑斯蒂损失。
反向传播
top:(1×1×1×1)维,该blob的微分就是loss_weight λ,λ是该层输出 的系数,整个网络的损失为
,这样
。
bottom: 1.(N×C×H×W)维的预测得分,反向计算微分
;
2.(N×1×1×1)维的标签,忽略。
6.InfogainLoss
是MultinomialLogisticLossLayer的泛化,利用“information gain”(infogain)矩阵指定所有标签对的“value“,如果infogain矩阵一致则与MultinomialLogisticLossLayer等价。
前向传播
bottom: 1.(N×C×H×W)维的预测得分,blob值的范围是[0, 1],表示对K=CHW个类中每个类的预测概率。每个预测向量
之和为1,
;
2.(N×1×1×1)维的标签l,,表示这个bacth中各样本的正确标签;
3.(1×1×K×K)维的infogain矩阵H(相应的另一个为I),若H=I则该层等价于MultinomialLogisticLossLayer。
top:(1×1×1×1)维的infogain多项逻辑斯蒂损失,
指的是H的第
行。
反向传播
top:(1×1×1×1)维,该blob的微分就是loss_weight λ,λ是该层输出 的系数,整个网络的损失为
,这样
。
bottom: 1.(N×C×H×W)维的预测得分,反向计算微分
;
2.(N×1×1×1)维的标签,忽略;
3.(1×1×K×K)维的infogain矩阵,忽略。
7.ContrastiveLoss
计算对比损失,其中
,可用于训练siamese网络。
前向传播
bottom: 1.(N×C×1×1)维的特征;
2.(N×C×1×1)维的特征;
3.(N×C×1×1)维的二元相似度。
top:(1×1×K×K)维的对比损失。
反向传播
top:(1×1×1×1)维,该blob的微分就是loss_weight λ,λ是该层输出 的系数,整个网络的损失为
,这样
。
bottom: 1.(N×C×1×1)维的特征a;
2.(N×C×1×1)维的特征b。
Caffe的loss layer(转)的更多相关文章
- 怎样在caffe中添加layer以及caffe中triplet loss layer的实现
关于triplet loss的原理.目标函数和梯度推导在上一篇博客中已经讲过了.详细见:triplet loss原理以及梯度推导.这篇博文主要是讲caffe下实现triplet loss.编程菜鸟.假 ...
- Tutorial: Triplet Loss Layer Design for CNN
Tutorial: Triplet Loss Layer Design for CNN Xiao Wang 2016.05.02 Triplet Loss Layer could be a tri ...
- caffe 学习(3)——Layer Catalogue
layer是建模和计算的基本单元. caffe的目录包含各种state-of-the-art model的layers. 为了创建一个caffe model,我们需要定义模型架构在一个protocol ...
- Caffe源码-Layer类
Layer类简介 Layer是caffe中搭建网络的基本单元,caffe代码中包含大量Layer基类派生出来的各种各样的层,各自通过虚函数 Forward() 和 Backward() 实现自己的功能 ...
- 在Caffe添加Python layer详细步骤
本文主要讨论的是在caffe中添加python layer的一般流程,自己设计的test_python_layer.py层只是起到演示作用,没有实际的功能. 1) Python layer 在caff ...
- caffe(6) Blob,Layer,Net 以及对应配置文件的编写
深度网络(net)是一个组合模型,它由许多相互连接的层(layers)组合而成.Caffe就是组建深度网络的这样一种工具,它按照一定的策略,一层一层的搭建出自己的模型.它将所有的信息数据定义为blob ...
- 【caffe】loss function、cost function和error
@tags: caffe 机器学习 在机器学习(暂时限定有监督学习)中,常见的算法大都可以划分为两个部分来理解它 一个是它的Hypothesis function,也就是你用一个函数f,来拟合任意一个 ...
- caffe调loss方法
正文 what should I do if... ...my loss diverges? (increases by order of magnitude, goes to inf. or NaN ...
- 画caffe训练loss曲线
Linux下操作 1. 将loss值存储到lossInf.txt中 fName1='loss.txt' cat loss.log | grep "solver.cpp:218] Iterat ...
随机推荐
- 微信小程序 功能函数 把数字1,2,3,4换成春,夏,秋,冬
let season =‘1,2,3’; // console.log(season.length) if (season){ if (season.length==1){ seasonChe1=se ...
- vsftpd重启失败解决方法
vsftpd dead,but subsys locked vsftpd已死,但是subsys被锁 关于VSFTPD服务器重启失败,研究了一晚上,当virtual_use_local_privs=ye ...
- IE显示对象不支持此属性或方法 的解决方法
用C# 编写的ActiveX控件, 调试时,在世界之窗浏览器里能正确显示,但是不能和JS交互,也没有传说中的错误信息框出现,查了很多文档,后来想问题是不是出在浏览器上,换在IE8里调试,点击交互按钮, ...
- 【Java并发编程】之八:多线程环境中安全使用集合API
在集合API中,最初设计的Vector和Hashtable是多线程安全的.例如:对于Vector来说,用来添加和删除元素的方法是同步的.如果只有一个线程与Vector的实例交互,那么,要求获取和释放对 ...
- 【BZOJ2957】楼房重建(线段树)
[BZOJ2957]楼房重建(线段树) 题面 BZOJ 题解 对于整个区间维护最大斜率以及只考虑这个区间的答案 考虑如何向上合并. 首先左半段的答案是一定存在的 所以,现在的问题就是右半段能够贡献的答 ...
- 【BZOJ4869】【SHOI2017】相逢是问候
Description BZOJ传送门 Solution 这题涉及到指数嵌套堆叠,可能可以用欧拉函数解决. 试想一个数\(a_i\)经过\(k\)次操作后会变成什么? \[ k个c\;\; \begi ...
- BZOJ5389 比例查询 【离线】
题目链接 BZOJ5389 题解 太\(sb\)了,这种题都想不出来 发现复杂度允许\(n\sqrt{n}\),我们可以对于每个位置\(\sqrt{n}\)枚举约数,然后维护比例的最晚出现的位置,维护 ...
- jquery的serializeArray、param 与serializeArray 的区别与源码解析
jQuery.param( obj, traditional ) 为url查询或者ajax 将对象或者数组转为url参数或ajax参数,是挂在jQuery对象上的静态方法,有码有真相: var myI ...
- bzoj3203【sdoi2013】保护出题人
题目描述 输入格式 第一行两个空格隔开的正整数n和d,分别表示关数和相邻僵尸间的距离.接下来n行每行两个空格隔开的正整数,第i + 1行为Ai和 Xi,分别表示相比上一关在僵尸队列排头增加血量为Ai ...
- dubbo与springcloud对比与面试
对比:具体见此博客: http://www.sohu.com/a/108961261_468650 dubbo:组装机 springcloud:品牌机 打个不恰当的比喻:使用Dubbo构建的微服务架构 ...