faster-rcnn代码阅读2

二、训练

接下来回到train.py第160行，通过调用sw.train_model方法进行训练：

     def train_model(self, max_iters):

         """Network training loop."""

         last_snapshot_iter = -1

         timer = Timer()

         model_paths = []

         while self.solver.iter < max_iters:

             # Make one SGD update

             timer.tic()

             self.solver.step(1)

             timer.toc()

             if self.solver.iter % (10 * self.solver_param.display) == 0:

                 print 'speed: {:.3f}s / iter'.format(timer.average_time)

             if self.solver.iter % cfg.TRAIN.SNAPSHOT_ITERS == 0:

                 last_snapshot_iter = self.solver.iter

                 model_paths.append(self.snapshot())

         if last_snapshot_iter != self.solver.iter:

             model_paths.append(self.snapshot())

         return model_paths

方法中的self.solver.step(1)即是网络进行一次前向传播和反向传播。前向传播时，数据流会从第一层流动到最后一层，最后计算出loss，然后loss相对于各层输入的梯度会从最后一层计算回第一层。下面逐层来介绍faster-rcnn算法的运行过程。

2.1、input-data layer

第一层是由python代码构成的，其prototxt描述为：

layer {

  name: 'input-data'

  type: 'Python'

  top: 'data'

  top: 'im_info'

  top: 'gt_boxes'

  python_param {

    module: 'roi_data_layer.layer'

    layer: 'RoIDataLayer'

    param_str: "'num_classes': 2"

  }

}

从中可以看出，input-data层有三个输出：data、im_info、gt_boxes，其实现为RoIDataLayer类。这一层对数据的预处理操作为：对图片进行长宽等比例缩放，使短边缩放至600；如果缩放后，长边的长度大于1000，则以长边为基准，将长边缩放至1000，短边作相应的等比例缩放。这一层的3个输出分别为：

1、data：1, 3, h, w(一个batch只支持输入一张图)

2、im_info: im_info[0], im_info[1], im_info[2]分别为h, w, target_size/im_origin_size(缩放比例)

3、gt_boxes: (x1, y1, x2, y2, cls)

预处理部分涉及到的函数有_get_next_minibatch，get_minibatch，_get_image_blob，prep_im_for_blob，im_list_to_blob。

网络在构造过程中（即self.solver = caffe.SGDSolver(solver_prototxt)）会调用该类的setup方法：

 __C.TRAIN.IMS_PER_BATCH = 1

 __C.TRAIN.SCALES = [600]

 __C.TRAIN.MAX_SIZE = 1000

 __C.TRAIN.HAS_RPN = True

 __C.TRAIN.BBOX_REG = True

     def setup(self, bottom, top):

         """Setup the RoIDataLayer."""

         # parse the layer parameter string, which must be valid YAML

         layer_params = yaml.load(self.param_str_)

         self._num_classes = layer_params['num_classes']

         self._name_to_top_map = {}

         # data blob: holds a batch of N images, each with 3 channels

         idx = 0

         top[idx].reshape(cfg.TRAIN.IMS_PER_BATCH, 3,

             max(cfg.TRAIN.SCALES), cfg.TRAIN.MAX_SIZE)

         self._name_to_top_map['data'] = idx

         idx += 1

         if cfg.TRAIN.HAS_RPN:

             top[idx].reshape(1, 3)

             self._name_to_top_map['im_info'] = idx

             idx += 1

             top[idx].reshape(1, 4)

             self._name_to_top_map['gt_boxes'] = idx

             idx += 1

         else: # not using RPN

             # rois blob: holds R regions of interest, each is a 5-tuple

             # (n, x1, y1, x2, y2) specifying an image batch index n and a

             # rectangle (x1, y1, x2, y2)

             top[idx].reshape(1, 5)

             self._name_to_top_map['rois'] = idx

             idx += 1

             # labels blob: R categorical labels in [0, ..., K] for K foreground

             # classes plus background

             top[idx].reshape(1)

             self._name_to_top_map['labels'] = idx

             idx += 1

             if cfg.TRAIN.BBOX_REG:

                 # bbox_targets blob: R bounding-box regression targets with 4

                 # targets per class

                 top[idx].reshape(1, self._num_classes * 4)

                 self._name_to_top_map['bbox_targets'] = idx

                 idx += 1

                 # bbox_inside_weights blob: At most 4 targets per roi are active;

                 # thisbinary vector sepcifies the subset of active targets

                 top[idx].reshape(1, self._num_classes * 4)

                 self._name_to_top_map['bbox_inside_weights'] = idx

                 idx += 1

                 top[idx].reshape(1, self._num_classes * 4)

                 self._name_to_top_map['bbox_outside_weights'] = idx

                 idx += 1

         print 'RoiDataLayer: name_to_top:', self._name_to_top_map

         assert len(top) == len(self._name_to_top_map)

主要是对输出的shape进行定义。要说明的是，在前向传播的过程中，仍然会对输出的各top的shape进行重定义，并且二者定义的shape往往都是不同的。

faster-rcnn代码阅读2的更多相关文章

Faster R-CNN代码例子
主要参考文章:1,从编程实现角度学习Faster R-CNN(附极简实现) 经常是做到一半发现收敛情况不理想,然后又回去看看这篇文章的细节. 另外两篇: 2,Faster R-CNN学习总结 ...
Faster RCNN代码理解（Python）
转自http://www.infocool.net/kb/Python/201611/209696.html#原文地址第一步,准备从train_faster_rcnn_alt_opt.py入: 初 ...
Faster rcnn代码理解（4）
上一篇我们说完了AnchorTargetLayer层,然后我将Faster rcnn中的其他层看了,这里把ROIPoolingLayer层说一下: 我先说一下它的实现原理:RPN生成的roi区域大小是 ...
Faster rcnn代码理解（2）
接着上篇的博客,咱们继续看一下Faster RCNN的代码- 上次大致讲完了Faster rcnn在训练时是如何获取imdb和roidb文件的,主要都在train_rpn()的get_roidb()函 ...
Faster rcnn代码理解（1）
这段时间看了不少论文,回头看看,感觉还是有必要将Faster rcnn的源码理解一下,毕竟后来很多方法都和它有相近之处,同时理解该框架也有助于以后自己修改和编写自己的框架.好的开始吧- 这里我们跟着F ...
Faster R-CNN论文阅读摘要
论文链接: https://arxiv.org/pdf/1506.01497.pdf 代码下载: https://github.com/ShaoqingRen/faster_rcnn (MATLAB) ...
Faster rcnn代码理解（3）
紧接着之前的博客,我们继续来看faster rcnn中的AnchorTargetLayer层: 该层定义在lib>rpn>中,见该层定义: 首先说一下这一层的目的是输出在特征图上所有点的a ...
Faster RCNN代码解析
1.faster_rcnn_end2end训练 1.1训练入口及配置 def train(): cfg.GPU_ID = 0 cfg_file = "../experiments/cfgs/ ...
tensorflow faster rcnn 代码分析一 demo.py
os.environ["CUDA_VISIBLE_DEVICES"]=2 # 设置使用的GPU tfconfig=tf.ConfigProto(allow_soft_placeme ...
对faster rcnn代码讲解的很好的一个
http://www.cnblogs.com/houkai/p/6824455.html http://blog.csdn.net/u014696921/article/details/6032142 ...

随机推荐

IIS Express配置多站点同时运行
环境:Win10 Pro.Visual Studio 2015 Community.IIS Express 10 VS2015集成IIS Express,所以无需单独下载, 默认安装位置:C:\Pro ...
Java系列学习(一)-JDK下载与安装
1.Java语言平台版本 J2SE:Java 2 Platform Standard Edition,java平台标准版 J2ME:Java 2 Platform Micro Edition,java ...
Listview模板
每次写listview都要翻以前的代码,好烦.所以记下模板,方便下次的使用. xml文件部分代码: <ListView android:id="@+id/listview" ...
SQL基本操作——select into与临时表
SELECT INTO 语句从一个表中选取数据,然后把数据插入另一个表中,常用于创建表的备份复件或者用于对记录进行存档. --制作 "Persons" 表的备份复件: SELECT ...
MyBatis入门3_mapper.xml优化(parameterType简写_NameSpace简写_sql片段_特殊字符处理)_动态SQL
本文为博主辛苦总结,希望自己以后返回来看的时候理解更深刻,也希望可以起到帮助初学者的作用. 转载请注明出自 : luogg的博客园谢谢配合! 优化 1.起别名(一般不用,写全方便查看类出处) 以前 ...
Redis 之order set有序集合结构及命令详解
1.zadd key score1 value1 score2 value2 添加元素 2.zrem key value1 value2 .. 删除集合中的元素 3.zremrangebyscor ...
名词解释http隧道、https、SSL层、http代理、在线代理、socks代理区别
以前听到这几个名词时,总是搞混淆,今天花点时间来记录这几个名词的大概区别,方便以后自己查看. http隧道与https http隧道:“HTTP隧道技术”就是把所有要传送的数据全部封装到HTTP协议里 ...
如何在mac里面，把xcode代码同步到 tfs 的 git库（新git库）
克隆篇请参考:http://www.cnblogs.com/IWings/p/6744895.html 在mac安装visual studio code https://code.visualstud ...
anguar相关
1.创建组件在某目录下创建组件 ng g c content/membersManage 2.创建服务在某目录下创建服务 ng g service services/storage 2.创建模 ...
Java并发——阿里架构师是如何巧用线程池的！
一.创建线程 1.创建普通对象,只是在JVM的堆里分配一块内存而已 2.创建线程,需要调用操作系统内核的API,然后操作系统需要为线程分配一系列资源,成本很高线程是一个重量级对象,应该避免频繁创建和 ...

faster-rcnn代码阅读2

faster-rcnn代码阅读2的更多相关文章

随机推荐

热门专题