py-faster-rcnn代码阅读3-roidb.py

roidb是比较复杂的数据结构，存放了数据集的roi信息。原始的roidb来自数据集，在trian.py的get_training_roidb(imdb)函数进行了水平翻转扩充数量，然后prepare_roidb(imdb)【定义在roidb.py】为roidb添加了一些说明性的属性。

在这里暂时记录下roidb的结构信息，后面继续看的时候可能会有些修正：

roidb是由字典组成的list，roidb[img_index]包含了该图片索引所包含到roi信息，下面以roidb[img_index]为例说明：

roidb[img_index]包含的key,	value
boxes	box位置信息，box_num*4的np array
gt_overlaps	所有box在不同类别的得分，box_num*class_num矩阵
gt_classes	所有box的真实类别，box_num长度的list
flipped	是否翻转
image	该图片的路径，字符串
width	图片的宽
height	图片的高
max_overlaps	每个box的在所有类别的得分最大值，box_num长度
max_classes	每个box的得分最高所对应的类，box_num长度
bbox_targets	每个box的类别，以及与最接近的gt-box的4个方位偏移

参考iamzhangzhuping的博客，感谢！更多信息请移步iamzhangzhuping的博客

下面是代码

roidb.py

import numpy as np

from fast_rcnn.config import cfg

from fast_rcnn.bbox_transform import bbox_transform

from utils.cython_bbox import bbox_overlaps

import PIL

def prepare_roidb(imdb):

    # 给原始roidata添加一些说明性的附加属性

    """Enrich the imdb's roidb by adding some derived quantities that

    are useful for training. This function precomputes the maximum

    overlap, taken over ground-truth boxes, between each ROI and

    each ground-truth box. The class with maximum overlap is also

    recorded.

    """

    sizes = [PIL.Image.open(imdb.image_path_at(i)).size

             for i in xrange(imdb.num_images)]

    # 当在‘Stage 2 Fast R-CNN, init from stage 2 RPN R-CNN model’阶段中，roidb由rpn_roidb（）

    # 方法生成，其中的每一张图像的box不仅仅只有gtbox，还包括rpn_file里面的box。

    roidb = imdb.roidb

    for i in xrange(len(imdb.image_index)):

        roidb[i]['image'] = imdb.image_path_at(i)

        roidb[i]['width'] = sizes[i][0]

        roidb[i]['height'] = sizes[i][1]

        # need gt_overlaps as a dense array for argmax

        # gt_overlaps是一个box_num*classes_num的矩阵，应该是每个box在不同类别的得分

        gt_overlaps = roidb[i]['gt_overlaps'].toarray()

        # max overlap with gt over classes (columns)

        # 每个box的在所有类别的得分最大值，box_num长度

        max_overlaps = gt_overlaps.max(axis=1)

        # gt class that had the max overlap

        # 每个box的得分最高所对应的类，box_num长度

        max_classes = gt_overlaps.argmax(axis=1)

        roidb[i]['max_classes'] = max_classes

        roidb[i]['max_overlaps'] = max_overlaps

        # sanity checks

        # 做检查，max_overlaps == 0意味着背景，否则非背景

        # max overlap of 0 => class should be zero (background)

        zero_inds = np.where(max_overlaps == 0)[0]

        assert all(max_classes[zero_inds] == 0)

        # max overlap > 0 => class should not be zero (must be a fg class)

        nonzero_inds = np.where(max_overlaps > 0)[0]

        assert all(max_classes[nonzero_inds] != 0)

def add_bbox_regression_targets(roidb):

    """Add information needed to train bounding-box regressors."""

    assert len(roidb) > 0

    assert 'max_classes' in roidb[0], 'Did you call prepare_roidb first?'

    num_images = len(roidb)

    # Infer number of classes from the number of columns in gt_overlaps

    # 类别数，roidb[0]对应第0号图片上的roi,shape[1]多少列表示roi属于不同类上的概率

    num_classes = roidb[0]['gt_overlaps'].shape[1]

    for im_i in xrange(num_images):

        rois = roidb[im_i]['boxes']

        max_overlaps = roidb[im_i]['max_overlaps']

        max_classes = roidb[im_i]['max_classes']

        # bbox_targets：每个box的类别，以及与最接近的gt-box的4个方位偏移

        roidb[im_i]['bbox_targets'] = \

                _compute_targets(rois, max_overlaps, max_classes)

    # 这里config是false

    if cfg.TRAIN.BBOX_NORMALIZE_TARGETS_PRECOMPUTED:

        # Use fixed / precomputed "means" and "stds" instead of empirical values

        # 使用固定的均值和方差代替经验值

        means = np.tile(

                np.array(cfg.TRAIN.BBOX_NORMALIZE_MEANS), (num_classes, 1))

        stds = np.tile(

                np.array(cfg.TRAIN.BBOX_NORMALIZE_STDS), (num_classes, 1))

    else:

        # Compute values needed for means and stds

        # 计算所需的均值和方差

        # var(x) = E(x^2) - E(x)^2

        # 计数各个类别出现box的数量

        class_counts = np.zeros((num_classes, 1)) + cfg.EPS  #加上cfg.EPS防止除0出错

        # 21类*4个位置，如果出现box的类别与其中某一类相同，将该box的4个target加入4个列元素中

        sums = np.zeros((num_classes, 4))

        # 21类*4个位置，如果出现box的类别与其中某一类相同，将该box的4个target的平方加入4个列元素中

        squared_sums = np.zeros((num_classes, 4))

        for im_i in xrange(num_images):

            targets = roidb[im_i]['bbox_targets']

            for cls in xrange(1, num_classes):

                cls_inds = np.where(targets[:, 0] == cls)[0]

                # box的类别与该类匹配，计入

                if cls_inds.size > 0:

                    class_counts[cls] += cls_inds.size

                    sums[cls, :] += targets[cls_inds, 1:].sum(axis=0)

                    squared_sums[cls, :] += \

                            (targets[cls_inds, 1:] ** 2).sum(axis=0)

        means = sums / class_counts # 均值

        stds = np.sqrt(squared_sums / class_counts - means ** 2) #标准差

    print 'bbox target means:'

    print means

    print means[1:, :].mean(axis=0) # ignore bg class

    print 'bbox target stdevs:'

    print stds

    print stds[1:, :].mean(axis=0) # ignore bg class

    # Normalize targets

    # 对每一box归一化target

    if cfg.TRAIN.BBOX_NORMALIZE_TARGETS:

        print "Normalizing targets"

        for im_i in xrange(num_images):

            targets = roidb[im_i]['bbox_targets']

            for cls in xrange(1, num_classes):

                cls_inds = np.where(targets[:, 0] == cls)[0]

                roidb[im_i]['bbox_targets'][cls_inds, 1:] -= means[cls, :]

                roidb[im_i]['bbox_targets'][cls_inds, 1:] /= stds[cls, :]

    else:

        print "NOT normalizing targets"

    # 均值和方差也用于预测

    # These values will be needed for making predictions

    # (the predicts will need to be unnormalized and uncentered)

    return means.ravel(), stds.ravel()  # ravel()排序拉成一维

def _compute_targets(rois, overlaps, labels):  # 参数rois只含有当前图片的box信息

    """Compute bounding-box regression targets for an image."""

    # Indices目录 of ground-truth ROIs

    # ground-truth ROIs

    gt_inds = np.where(overlaps == 1)[0]

    if len(gt_inds) == 0:

        # Bail if the image has no ground-truth ROIs

        # 不存在gt ROI，返回空数组

        return np.zeros((rois.shape[0], 5), dtype=np.float32)

    # Indices of examples for which we try to make predictions

    # BBOX阈值，只有ROI与gt的重叠度大于阈值，这样的ROI才能用作bb回归的训练样本

    ex_inds = np.where(overlaps >= cfg.TRAIN.BBOX_THRESH)[0]

    # Get IoU overlap between each ex ROI and gt ROI

    # 计算ex ROI and gt ROI的IoU

    ex_gt_overlaps = bbox_overlaps(

        # 变数据格式为float

        np.ascontiguousarray(rois[ex_inds, :], dtype=np.float),

        np.ascontiguousarray(rois[gt_inds, :], dtype=np.float))

    # Find which gt ROI each ex ROI has max overlap with:

    # this will be the ex ROI's gt target

    # 这里每一行代表一个ex_roi,列代表gt_roi,元素数值代表两者的IoU

    gt_assignment = ex_gt_overlaps.argmax(axis=1) #按行求最大，返回索引.

    gt_rois = rois[gt_inds[gt_assignment], :]  #每个ex_roi对应的gt_rois，与下面ex_roi数量相同

    ex_rois = rois[ex_inds, :]

    targets = np.zeros((rois.shape[0], 5), dtype=np.float32)

    targets[ex_inds, 0] = labels[ex_inds]  #第一个元素是label

    targets[ex_inds, 1:] = bbox_transform(ex_rois, gt_rois)  #后4个元素是ex_box与gt_box的4个方位的偏移

    return targets

py-faster-rcnn代码阅读3-roidb.py的更多相关文章

tensorflow faster rcnn 代码分析一 demo.py
os.environ["CUDA_VISIBLE_DEVICES"]=2 # 设置使用的GPU tfconfig=tf.ConfigProto(allow_soft_placeme ...
py faster rcnn+ 1080Ti+cudnn5.0
看了py-faster-rcnn上的issue,原来大家都遇到各种问题. 我要好好琢磨一下,看看到底怎么样才能更好地把GPU卡发挥出来.最近真是和GPU卡较上劲了. 上午解决了g++的问题不是. 然后 ...
Faster RCNN代码理解（Python）
转自http://www.infocool.net/kb/Python/201611/209696.html#原文地址第一步,准备从train_faster_rcnn_alt_opt.py入: 初 ...
Faster rcnn代码理解（1）
这段时间看了不少论文,回头看看,感觉还是有必要将Faster rcnn的源码理解一下,毕竟后来很多方法都和它有相近之处,同时理解该框架也有助于以后自己修改和编写自己的框架.好的开始吧- 这里我们跟着F ...
Faster RCNN代码解析
1.faster_rcnn_end2end训练 1.1训练入口及配置 def train(): cfg.GPU_ID = 0 cfg_file = "../experiments/cfgs/ ...
Faster rcnn代码理解（2）
接着上篇的博客,咱们继续看一下Faster RCNN的代码- 上次大致讲完了Faster rcnn在训练时是如何获取imdb和roidb文件的,主要都在train_rpn()的get_roidb()函 ...
Faster R-CNN代码例子
主要参考文章:1,从编程实现角度学习Faster R-CNN(附极简实现) 经常是做到一半发现收敛情况不理想,然后又回去看看这篇文章的细节. 另外两篇: 2,Faster R-CNN学习总结 ...
Faster rcnn代码理解（4）
上一篇我们说完了AnchorTargetLayer层,然后我将Faster rcnn中的其他层看了,这里把ROIPoolingLayer层说一下: 我先说一下它的实现原理:RPN生成的roi区域大小是 ...
Faster R-CNN论文阅读摘要
论文链接: https://arxiv.org/pdf/1506.01497.pdf 代码下载: https://github.com/ShaoqingRen/faster_rcnn (MATLAB) ...
Faster rcnn代码理解（3）
紧接着之前的博客,我们继续来看faster rcnn中的AnchorTargetLayer层: 该层定义在lib>rpn>中,见该层定义: 首先说一下这一层的目的是输出在特征图上所有点的a ...

随机推荐

1094. The Largest Generation (25)-（dfs，树的遍历，统计每层的节点数）
题目很简单,就是统计一下每层的节点数,输出节点数最多的个数和对应的层数即可. #include <iostream> #include <cstdio> #include &l ...
linux 远程连接报错 10038或者10061 或者10060
1.检查linux的mysql是否开启 2.检查mysql的user表的host是否是% 3.检查my.cnf文件是否绑定本地 4.防火墙3306端口是否开启假如以上都没问题,那最大的原因就是我折腾 ...
四则运算APP最后阶段
四则运算APP最后阶段 [开发环境]:eclipse [开发项目]:小学生四则运算APP [开发人员]:郑胜斌 http://www.cnblogs.com/zsb1/ 孔德颖 http://www. ...
Vivado绑定外部verilog编辑器
前言由于Vivado自带的verilog编辑器确实难用,写起来效率不高,因而寻找到了以下教程. 解决方案引用sublime作为vivado外部verilog编辑器 sublime text中文编码 ...
JwtUtils 工具类
/** * jwt工具类 */ public class JwtUtils { public static final String SUBJECT = "onehee"; *** ...
CentOS7 如何修改内核版本
1. 参考blog http://www.mamicode.com/info-detail-1758066.html https://www.cnblogs.com/sexiaoshuai/p/839 ...
[转帖]SSL/TLS/WTLS原理
SSL/TLS/WTLS原理作者:yawl < yawl@nsfocus.com >主页:http://www.nsfocus.com日期:2001-02-19 一前言首先要澄清一下 ...
power shell 常用查询－查看操作系统信息
https://technet.microsoft.com/en-us/library/dd367892.aspx 首推使用 Get-Counter 该函数下可以把现有的电脑监控统计数据直接提取出来 ...
delphi 如何让ScrollBox的内容与滚动条一起实时滚动
delphi 如何让ScrollBox的内容与滚动条一起实时滚动拖动滚动条后只有释放鼠标键,ScrollBox的内容才会滚动到实际位置,不爽.请问高人,怎样才能使拖动ScrollBox的滚动条的同时 ...
Json序列化循环引用的问题
今天在发布接口的时候出突然出现了一个问题,报错代码为: 1 An exception has occurred while using the formatter 'JsonMediaTypeForm ...

py-faster-rcnn代码阅读3-roidb.py

py-faster-rcnn代码阅读3-roidb.py的更多相关文章

随机推荐

热门专题