InsertSplits()函数

在Net初始化的过程中,存在一个特殊的修改网络结构的操作,那就是当某层的输出blob对应多个其他层的输入blob时,会在输出blob所在层的后面插入一个新的Split类型的层。大致方式如下图所示,左侧为原始网络的结构,右侧为修改之后的网络结构。个人理解这样做的目的应该是为了在梯度反传时,方便多个分支的梯度能够累加到同一个blob上。左侧图,分别计算出layer1和layer2的blob0的梯度后,在计算layer0的blob0的梯度时,Net类中需要额外增加一些操作来将各个分支的梯度累加起来。而右侧图,则是将梯度累加操作看成一个Layer来实现,看起来更合理些。

graph BT
A[name: layer0<br>top: blob0]-->B[name: layer1<br>bottom: blob0<br>top: ...]
A-->C[name: layer2<br>bottom: blob0<br>top: ...]
U[name: layer0<br>top: blob0]-->V[name: blob0_layer0_0_split<br>type: Split<br>bottom: blob0<br>top: blob0_layer0_0_split_0<br>top: blob0_layer0_0_split_1]
V-->W[name: layer1<br>bottom: blob0_layer0_0_split_0<br>top: ...]
V-->X[name: layer2<br>bottom: blob0_layer0_0_split_1<br>top: ...]

insert_splits.cpp源码

//根据网络参数param创建新的网络参数param_split. param_split主要是将param中一些被多次使用的blob
//后面增加一层,将blob分解成多个不同名称的分支,用于后续的输入
void InsertSplits(const NetParameter& param, NetParameter* param_split) {
// Initialize by copying from the input NetParameter.
param_split->CopyFrom(param); //拷贝网络参数
param_split->clear_layer(); //同样先清空所有layer参数 //<输出blob的名称, <第m层网络, 第n个输出blob>>,存放当前已记录的所有输出blob的名称最近一次出现的位置
map<string, pair<int, int> > blob_name_to_last_top_idx; //<<第i层网络, 第j个输入blob>, <第m层网络, 第n个输出blob>> //指示输入blob数据的来源
map<pair<int, int>, pair<int, int> > bottom_idx_to_source_top_idx; map<pair<int, int>, int> top_idx_to_bottom_count; //<第m层网络, 第n个输出blob>,表示该blob被用作输入blob的次数
map<pair<int, int>, float> top_idx_to_loss_weight; //<第m层网络, 第n个输出blob>,该输出blob对应的loss weight
map<pair<int, int>, int> top_idx_to_bottom_split_idx; //<<第m层网络, 第n个输出blob>, 输出blob第k次用作输入>
map<int, string> layer_idx_to_layer_name; //<第i层网络, 第i层网络的名称> for (int i = 0; i < param.layer_size(); ++i) {
const LayerParameter& layer_param = param.layer(i); //net中第i层的layer参数
layer_idx_to_layer_name[i] = layer_param.name(); //保存其名称 for (int j = 0; j < layer_param.bottom_size(); ++j) { //该层的所有输入blob
const string& blob_name = layer_param.bottom(j); //第i层layer的第j个输入blob的名称
if (blob_name_to_last_top_idx.find(blob_name) ==
blob_name_to_last_top_idx.end()) {
//输入blob不在blob_name_to_last_top_idx中,说明与之同名的输出blob也不在其中,未能在当前的记录中找到输出blob的网络位置,
//那个该输入blob的数据的来源未知,返回错误
LOG(FATAL) << "Unknown bottom blob '" << blob_name << "' (layer '"
<< layer_param.name() << "', bottom index " << j << ")";
}
const pair<int, int>& bottom_idx = make_pair(i, j); //第i层的第j个输入blob
const pair<int, int>& top_idx = blob_name_to_last_top_idx[blob_name]; //找到该blob在网络中用作输出的最近一次出现的位置
bottom_idx_to_source_top_idx[bottom_idx] = top_idx; //用于输出的最近的位置,即为该输入blob数据的来源,保存
++top_idx_to_bottom_count[top_idx]; //对应的输出blob的被使用计数器加一
} for (int j = 0; j < layer_param.top_size(); ++j) { //该层的所有输出blob
const string& blob_name = layer_param.top(j); //第i层的第j个输出blob的名称
//输出blob的名称重复出现时只会记录最后一次出现的位置
blob_name_to_last_top_idx[blob_name] = make_pair(i, j); //关联输出blob的名称与位置
} // A use of a top blob as a loss should be handled similarly to the use of
// a top blob as a bottom blob to another layer.
const int last_loss = std::min(layer_param.loss_weight_size(), layer_param.top_size()); //取较小的
for (int j = 0; j < last_loss; ++j) {
const string& blob_name = layer_param.top(j); //第i层的第j个输出blob的名称
const pair<int, int>& top_idx = blob_name_to_last_top_idx[blob_name]; //输出blob的位置
top_idx_to_loss_weight[top_idx] = layer_param.loss_weight(j); //保存输出blob对应的权重
if (top_idx_to_loss_weight[top_idx]) { //loss权重不为0,说明loss有效,也将这种类型的输出blob看成某层的输入,计数加一
++top_idx_to_bottom_count[top_idx];
}
}
}
for (int i = 0; i < param.layer_size(); ++i) { //便利所有layer
LayerParameter* layer_param = param_split->add_layer(); //在param_split中添加新的层,返回其指针
layer_param->CopyFrom(param.layer(i)); //将当前层的参数拷贝到param_split的新增的层中 //先处理layer 的输入数据,如果输入数据对应的来源输出blob存在被多次使用的情况,则会修改输入blob的名称
//以下注释假设第m层的第n个输出来源于第i层的第j个输入
// Replace any shared bottom blobs with split layer outputs.
for (int j = 0; j < layer_param->bottom_size(); ++j) { //该层的输入blob,第j个
const pair<int, int>& top_idx = bottom_idx_to_source_top_idx[make_pair(i, j)]; //输入blob的来源的位置,第m层的第n个输出
const int split_count = top_idx_to_bottom_count[top_idx]; //第m层的第n个输出blob被用作输入blob的次数
if (split_count > 1) { //次数大于1,被多次使用
const string& layer_name = layer_idx_to_layer_name[top_idx.first]; //第m层layer的名称
const string& blob_name = layer_param->bottom(j); //第i层的第j个输入blob的名称,同样也是第m层的第n个输出blob的名称 //将param_split的新增的层的第j个输出blob的名称修改为: blob_name + layer_name + n + 拆分索引
layer_param->set_bottom(j, SplitBlobName(layer_name,
blob_name, top_idx.second, top_idx_to_bottom_split_idx[top_idx]++)); //第k次用作输入,用后加一,保证后续再用于输入时创建的名称不同
}
} //处理layer的输出数据,如果输出数据存在多次使用的情况,则会在该层后面添加一个新的层.新的层的输入对应该层的输出,新层的输出blob的个数
//对应该层输出blob被使用的次数,新层的输出blob的名称对应上面的layer_param->set_bottom()中SplitBlobName()得到的名称,新层类型为"Split"
// Create split layer for any top blobs used by other layer as bottom blobs more than once.
for (int j = 0; j < layer_param->top_size(); ++j) { //该层的第j个输出blob
const pair<int, int>& top_idx = make_pair(i, j);
const int split_count = top_idx_to_bottom_count[top_idx]; //找到第i层的第j个输出blob的被使用次数
if (split_count > 1) {
const string& layer_name = layer_idx_to_layer_name[i]; //第i层layer的名称
const string& blob_name = layer_param->top(j); //第j个输出blob的名称
LayerParameter* split_layer_param = param_split->add_layer(); //在param_split中增加一个新的层
const float loss_weight = top_idx_to_loss_weight[top_idx]; //第i层的第j个输出blob对饮的权重
ConfigureSplitLayer(layer_name, blob_name, j, split_count,
loss_weight, split_layer_param); //多次使用时,在该输出blob后面添加一个新的layer
if (loss_weight) {
layer_param->clear_loss_weight(); //权重转移到新增的层中,param_split的当前层的权重置为0
top_idx_to_bottom_split_idx[top_idx]++; //loss layer中,将当前层的输出blob看成是某层的输入,则当前层的输出blob的计数加一
}
}
}
}
} //设置param_split中新增层的参数split_layer_param,新层的输出blob的个数为split_count
void ConfigureSplitLayer(const string& layer_name, const string& blob_name,
const int blob_idx, const int split_count, const float loss_weight,
LayerParameter* split_layer_param) {
split_layer_param->Clear(); //先清空所有layer参数
split_layer_param->add_bottom(blob_name); //添加一个输入blob,名称为blob_name
split_layer_param->set_name(SplitLayerName(layer_name, blob_name, blob_idx)); //生成一个layer的名称,设置到新层中
split_layer_param->set_type("Split"); //设置新层的类型为"Split"
for (int k = 0; k < split_count; ++k) {
//添加一个新的输出blob,规则与InsertSplits()中的layer_param->set_bottom()中的一致
split_layer_param->add_top(SplitBlobName(layer_name, blob_name, blob_idx, k));
if (loss_weight) { //权重不为0,只设置第一条分支的权重,其余分支的权重置为0.
if (k == 0) { //(防止每条分支都计算权重,分割后的网络与原网络计算结果不一致)
split_layer_param->add_loss_weight(loss_weight);
} else {
split_layer_param->add_loss_weight(0);
}
}
}
} string SplitLayerName(const string& layer_name, const string& blob_name,
const int blob_idx) { //生成新的layer的名称: 输入blob的名称 + blob所在layer的名称 + blob的位置
ostringstream split_layer_name;
split_layer_name << blob_name << "_" << layer_name << "_" << blob_idx
<< "_split";
return split_layer_name.str();
} string SplitBlobName(const string& layer_name, const string& blob_name,
const int blob_idx, const int split_idx) { //生成新的blob名称: 原blob名称 + layer名称 + blob索引 + 拆分索引
ostringstream split_blob_name;
split_blob_name << blob_name << "_" << layer_name << "_" << blob_idx
<< "_split_" << split_idx;
return split_blob_name.str();
}

小结

  1. 该部分代码重点是理解InsertSplits()函数初始定义的几个map类型的变量的含义

参考

https://blog.csdn.net/limengjuhanxin/article/details/87939996

Caffe的源码笔者是第一次阅读,一边阅读一边记录,对代码的理解和分析可能会存在错误或遗漏,希望各位读者批评指正,谢谢支持!

Caffe源码-InsertSplits()函数的更多相关文章

  1. Caffe源码理解2:SyncedMemory CPU和GPU间的数据同步

    目录 写在前面 成员变量的含义及作用 构造与析构 内存同步管理 参考 博客:blog.shinelee.me | 博客园 | CSDN 写在前面 在Caffe源码理解1中介绍了Blob类,其中的数据成 ...

  2. caffe源码阅读

    参考网址:https://www.cnblogs.com/louyihang-loves-baiyan/p/5149628.html 1.caffe代码层次熟悉blob,layer,net,solve ...

  3. Caffe源码中syncedmem文件分析

    Caffe源码(caffe version:09868ac , date: 2015.08.15)中有一些重要文件,这里介绍下syncedmem文件. 1.      include文件: (1).& ...

  4. Caffe源码中math_functions文件分析

    Caffe源码(caffe version:09868ac , date: 2015.08.15)中有一些重要文件,这里介绍下math_functions文件. 1.      include文件: ...

  5. Caffe源码阅读(1) 全连接层

    Caffe源码阅读(1) 全连接层 发表于 2014-09-15   |   今天看全连接层的实现.主要看的是https://github.com/BVLC/caffe/blob/master/src ...

  6. vscode下调试caffe源码

    caffe目录: ├── build -> .build_release // make生成目录,生成各种可执行bin文件,直接调用入口: ├── cmake ├── CMakeLists.tx ...

  7. Caffe源码中common文件分析

    Caffe源码(caffe version:09868ac , date: 2015.08.15)中的一些重要头文件如caffe.hpp.blob.hpp等或者外部调用Caffe库使用时,一般都会in ...

  8. caffe源码整个训练过程

    Caffe源码 Blob protected: shared_ptr<SyncedMemory> data_; shared_ptr<SyncedMemory> diff_; ...

  9. caffe源码学习

    本文转载自:https://buptldy.github.io/2016/10/09/2016-10-09-Caffe_Code/ Caffe简介 Caffe作为一个优秀的深度学习框架网上已经有很多内 ...

随机推荐

  1. Python中lambda的使用,与它的三个好基友介绍!

    匿名函数lambda 除了def语句,python还提供了一种生成函数对象的表达式形式.由于它与LISP语言中的一个工具类似,所以称为lambda. 就像def一样,这个表达式创建了一个之后能够调用的 ...

  2. html基础——div/span

    div是一个块标签/盒子标签,单独占据一行 span不会占据一块,一般是用来修改某几个文字的格式 比如一行字,需要将每一句的首字母大写,就可以使用span标签 如果是要将一个段落的字加样式,两个都可以 ...

  3. 【论文阅读】A practical algorithm for distributed clustering and outlier detection

    文章提出了一种分布式聚类的算法,这是第一个有理论保障的考虑离群点的分布式聚类算法(文章里自己说的).与之前的算法对比有以下四个优点: 1.耗时短O(max{k,logn}*n), 2.传递信息规模小: ...

  4. 数据表与简单java类映射转换

    简单的Java类的定义来源于数据表的结构, 例如:雇员信息表.部门信息表描述的就是雇员或部门的信息, 在实际的开发之中,数据表和简单java类之间的映射关系如下: 1. 数据实体表设计 = 类的定义: ...

  5. 使用Cap解决.Netcore分布式事务

    一.什么是Cap    CAP 是一个基于 .NET Standard 的 C# 库,它是一种处理分布式事务的解决方案,同样具有 EventBus 的功能,它具有轻量级.易使用.高性能等特点. 在我们 ...

  6. Xamarin.Forms学习系列之Syncfusion 制作图形报表

    Syncfusion是一家微软生态下的第三方组件/控件供应商,除了用于HTML5和JavaScript的控件外,他们产品还涉及如下领域: WEB ASP.NET MVC ASP.NET WebForm ...

  7. 搭建nextcloud私有云存储网盘

    简介: 搭建个人云存储一般会想到ownCloud,堪称是自建云存储服务的经典.而Nextcloud是ownCloud原开发团队打造的号称是“下一代”存储. 真正试用过后就由衷地赞同这个Nextclou ...

  8. PHP页面跳转传值的三种常见方式

    一. POST传值 post传值是用于html的<form>表单跳转的方法,很方便使用.例如: ? 1 2 3 4 5 6 7  <html>  <form action ...

  9. jsp 实现修改和删除功能

    main.jsp   实现查询 在此界面快捷方式到修改界面 点击修改  会把数据传递到exit.jsp 修改   edit.jsp 前面数据: 数据库: /* Navicat Premium Data ...

  10. 关于c++函数里面return的用法,关于调用的讲解

    与下面的图片对比一下 可以看见在int b = test();d的时候cout<<"hello";就被调用了: cout<<b;只是返回return a的值 ...