caffe中softmax loss源码阅读

(1) softmax loss

<1> softmax loss的函数形式为：

(1)

z_i为softmax的输入，f(z_i)为softmax的输出。

<2> softmax loss对其输入z_j求导：

(2)

如果j==k，则z_k是变量，否则z_j是变量。

和的导数等于导数的和，对和中某个元素求导的话有：

(2) softmax_loss_layer.cpp中的Forward_cpu()函数：

 template <typename Dtype>

 void SoftmaxWithLossLayer<Dtype>::Forward_cpu(

     const vector<Blob<Dtype>*>& bottom, const vector<Blob<Dtype>*>& top) {

   // The forward pass computes the softmax prob values.
     //调用softmax层的forward函数，得到对应的输出，存到prob_中

   softmax_layer_->Forward(softmax_bottom_vec_, softmax_top_vec_);

   const Dtype* prob_data = prob_.cpu_data();
     //一般loss层有两个输入blob,网络的predict blob(bottom[0])和label blob(bottom[1])

   const Dtype* label = bottom[]->cpu_data();
     //dim = N*C*H*W / N = C*H*W

   int dim = prob_.count() / outer_num_;
     //count变量是计算loss时的有效样本数

   int count = ;

   Dtype loss = ;

   for (int i = ; i < outer_num_; ++i) {

     for (int j = ; j < inner_num_; j++) {
         //读取label

       const int label_value = static_cast<int>(label[i * inner_num_ + j]);
         //如果该样本的label等于deploy中softmaxWithLoss中设定的参数ignore_label_,则该样本不参与前向和后向计算

       if (has_ignore_label_ && label_value == ignore_label_) {

         continue;

       }
         //判断label_value是否大于等于0

       DCHECK_GE(label_value, );
         //判断label_value是否小于prob_.shape(softmax_axis_)=C

       DCHECK_LT(label_value, prob_.shape(softmax_axis_));
         //对于softmax的输出channel,计算label_value索引对应的channel中prob的log.对应公式(1)

       loss -= log(std::max(prob_data[i * dim + label_value * inner_num_ + j],

                            Dtype(FLT_MIN)));
         //有效样本数加一

       ++count;

     }

   }
     //最终在训练日志中显示的loss为计算的总loss除以有效样本数

   top[]->mutable_cpu_data()[] = loss / get_normalizer(normalization_, count);

   if (top.size() == ) {

     top[]->ShareData(prob_);

   }

 }

(3) softmax_loss_layer.cpp中的Backward_cpu函数:

 template <typename Dtype>

 void SoftmaxWithLossLayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top,

     const vector<bool>& propagate_down, const vector<Blob<Dtype>*>& bottom) {

   if (propagate_down[]) {

     LOG(FATAL) << this->type()

                << " Layer cannot backpropagate to label inputs.";

   }

   if (propagate_down[]) {

     Dtype* bottom_diff = bottom[]->mutable_cpu_diff();

     const Dtype* prob_data = prob_.cpu_data();
       //将softmax的输出prob_复制给bottom[0]的diff(梯度) blob

     caffe_copy(prob_.count(), prob_data, bottom_diff);

     const Dtype* label = bottom[]->cpu_data();

     int dim = prob_.count() / outer_num_;

     int count = ;

     for (int i = ; i < outer_num_; ++i) {

       for (int j = ; j < inner_num_; ++j) {

         const int label_value = static_cast<int>(label[i * inner_num_ + j]);

         if (has_ignore_label_ && label_value == ignore_label_) {

           for (int c = ; c < bottom[]->shape(softmax_axis_); ++c) {

             bottom_diff[i * dim + c * inner_num_ + j] = ;

           }

         } else {
             //对应公式(2),在反传梯度时，label索引对应的diff减1，其他不变。

           bottom_diff[i * dim + label_value * inner_num_ + j] -= ;

           ++count;

         }

       }

     }

     // Scale gradient
       //top[0]->cpu_diff()[0] = N
       //N / count

     Dtype loss_weight = top[]->cpu_diff()[] /

                         get_normalizer(normalization_, count);

     caffe_scal(prob_.count(), loss_weight, bottom_diff);

   }

 }

caffe中softmax loss源码阅读的更多相关文章

caffe中batch norm源码阅读
1. batch norm 输入batch norm层的数据为[N, C, H, W], 该层计算得到均值为C个,方差为C个,输出数据为[N, C, H, W]. <1> 形象点说,均值的 ...
【源码阅读】Java集合之三 - ArrayDeque源码深度解读
Java 源码阅读的第一步是Collection框架源码,这也是面试基础中的基础: 针对Collection的源码阅读写一个系列的文章,本文是第三篇ArrayDeque. ---@pdai JDK版本 ...
【源码阅读】Java集合之二 - LinkedList源码深度解读
Java 源码阅读的第一步是Collection框架源码,这也是面试基础中的基础: 针对Collection的源码阅读写一个系列的文章; 本文是第二篇LinkedList. ---@pdai JDK版 ...
【源码阅读】Java集合之一 - ArrayList源码深度解读
Java 源码阅读的第一步是Collection框架源码,这也是面试基础中的基础: 针对Collection的源码阅读写一个系列的文章,从ArrayList开始第一篇. ---@pdai JDK版本 ...
Caffe源码阅读(1) 全连接层
Caffe源码阅读(1) 全连接层发表于 2014-09-15 | 今天看全连接层的实现.主要看的是https://github.com/BVLC/caffe/blob/master/src ...
caffe-windows中classification.cpp的源码阅读
caffe-windows中classification.cpp的源码阅读命令格式: usage: classification string(模型描述文件net.prototxt) string( ...
源码阅读笔记 - 1 MSVC2015中的std::sort
大约寒假开始的时候我就已经把std::sort的源码阅读完毕并理解其中的做法了,到了寒假结尾,姑且把它写出来这是我的第一篇源码阅读笔记,以后会发更多的,包括算法和库实现,源码会按照我自己的代码风格格 ...
源码阅读经验谈-slim,darknet,labelimg,caffe(1)
本文首先谈自己的源码阅读体验,然后给几个案例解读,选的例子都是比较简单.重在说明我琢磨的点线面源码阅读方法.我不是专业架构师,是从一个深度学习算法工程师的角度来谈的,不专业的地方请大家轻拍. 经常看别 ...
SpringMVC源码阅读：Controller中参数解析
1.前言 SpringMVC是目前J2EE平台的主流Web框架,不熟悉的园友可以看SpringMVC源码阅读入门,它交代了SpringMVC的基础知识和源码阅读的技巧本文将通过源码(基于Spring ...

随机推荐

强大的时间处理库 moment
中文文档: http://momentjs.cn/docs/ 常用方法 1.当前时间对象 moment () / 指定时间对象 moment("2019-09-19 08:00:0 ...
疑难杂症----windows7
这两天换了台win7的机器,每次开机发现时间日期没法更新,第一次手动更新后过了一天以后又恢复成20xx/01/01,头疼ing,网上找了好多办法,在这里记录一下,避免以后再碰到同样的问题. 出现这个问 ...
学习方法分享：为何一年半就能拿到大厂 offer
毕竟是聊聊曾经,放一张大学课堂上灵光一现,手写的一个我曾经一直使用的网名前言原文地址:Nealyang/personalBlog 讲真,的确是运气,才有机会进大厂.也没想到,那篇一年半工作经验试水 ...
new的执行过程
kubernetes实战(二十六)：kubeadm 安装高可用 k8s v1.16.x dashboard 2.x
1.基本配置基本配置.内核升级.基本服务安装参考https://www.cnblogs.com/dukuan/p/10278637.html,或者参考<再也不踩坑的Kubernetes实战指南 ...
使用最新版Mybatis逆向工程生成属性不全的问题
这是出现问题时打印的日志首先查看表内的字段这张User表含8个属性,但是在逆向工程过程中生成的Pojo类不全还出现了不存在的属性主要在逆向工程过程中的一个配置问题,修改generatorConf ...
Linux 伪终端(pty)
通过<Linux 终端(TTY)>一文我们了解到:我们常说的终端分为终端 tty1-6 和伪终端.使用 tty1-6 的情况一般为 Linux 系统直接连了键盘和显示器,或者是使用了 vS ...
Anaconda基本认识
Anaconda Distribution是执行Python数据科学和机器学习最简单的方法. 它包括250多种流行的数据科学软件包,以及适用于Windows,Linux和MacOS的conda软件包和 ...
Python基础（十二）
今日主要内容推导式生成器表达式 lambda匿名函数内置函数介绍一.推导式 (一)列表推导式先来看一段代码建立一个空列表,向空列表中添加元素 lst = list() for i in r ...
layui内部定义的function，外部调用时候，提示某函数未定义现象解决方案
1.引入layui.all.js文件 <script type="text/javascript" src="${pageContext.request.conte ...

caffe中softmax loss源码阅读

caffe中softmax loss源码阅读的更多相关文章

随机推荐

热门专题