Faster RCNN论文解析

Faster R-CNN由一个推荐区域的全卷积网络和Fast R-CNN组成, Fast R-CNN使用推荐区域。整个网络的结构如下：

1.1 区域推荐网络

输入是一张图片（任意大小），输出是目标推荐矩形框的集合，以及相应的目标打分。网络的前面使用了一个基本的卷积层集合来提取特征（ZF或VGG-16）。这个基本层同时被RPN网络和Fast R-CNN使用。

在基本层之后，文中使用一个n*n的滑动窗口在最后一层特征图卷积，在每一个窗口位置，得到一个256维或512维的特征。这个特征随后被送进两个全连接层，分别是box-regression layer和box-classification layer。

上段中的迷你网络如下图所示。由于迷你网络是通过滑动窗口的方式，所以得到的特征是共享位置信息的，于是box-regression和box-classification层的全连是通过1×1的卷积实现。

1.1.1 Anchors

在滑动窗口的每个位置，会预测多个推荐区域，数量记为K(文中为9)。reg层有4K个输出（编码K个方框的坐标），cls层有2K个输出（预测目标或非目标的概率）。这K个推荐区域被称为anchors。每个anchor都在滑动窗口的中心，并有相应的尺度大小和长宽比例。文中采用了三种尺度和三种长宽比，因此K为9。在这层卷积中，padding为1, stride为1, 所以总共会产生W*H(特征图的大小)个anchors。

1.1.2 Anchors的变换不变性（ranslation-Invariant）

变换不变性是说，anchors和根据anchors计算推荐区域的函数是对图像的变换不变的。就是说，如果变换了图像中的一个对象，那么推荐的区域也是相应变换的，同样的函数可以预测任何位置的一个推荐区域。我的理解是针对图像的平移缩放，anchors照样能检出对应的区域。这个性质是与文中提到的MultiBox方法使用k-means生成anchors相对的，因为k-means聚类方法是依赖于初始点的选取的，所以没有变换不变性。

1.1.3 多尺度Anchors 作为回归引用(Regression References)

有两种多尺度预测方式。一种是图像/特征金字塔，图像在多个尺度进行resize，卷积特征在每个尺度的图像上进行计算，比较耗费时间。另一种在特征图上使用多尺度的滑动窗口，这种方法更为高效。

1.1.4 损失函数

为了训练RPN,文中对每个anchor赋予二值（是目标或非目标）类标签。对两种anchors赋予正标签：1）和真值框有最高交并比的anchor/anchors；2）和任何真值框的IoU高于0.7。对和所有真值框IoU都低于0.3的anchor赋予负标签。其他的anchors不作为训练目标。损失函数如下：

i是一个mini-batch中anchor的序号，p_i是anchor i被预测为目标的概率。真值标签p_i^*是1, 如果anchor赋予了正标签，p_i^*是0, 如果anchor赋予了负标签。t_i是预测的bounding box的4个参数坐标向量，t_i^*是正anchor的ground-truth box。L_cls是两类的log损失。L_reg(t_i, t_i^*) = R(t_i - t_i^*)，R是smooth L1函数（在（2）式中定义）。p_i^*L_reg只针对正anchors(p_i^*=1)。cls和reg层分别输出{p_i}和{t_i}。N_cls（=256）是mini-batch的大小， N_reg是anchor位置的数目（N_reg～2400），默认设置λ=10,来使两项损失权重大致相等。

上式中x,y,w,h表示box的中心坐标和宽度、高度。变量x, x_a, x^*分别表示预测框、anchor框、真值框。

1.1.5 训练RPN网络

每个mini-batch从单个图像中的正负anchors产生。文中正负anchor的比例为1：1。如果正样本数少于128,则用负样本填充。

1.2 RPN和Fast R-CNN共享特征

RPN和Fast R-CNN单独训练会以不同方式修改卷积层。文中介绍了三种方式共享卷积层。

（i）交替训练。首先训练RPN，使用proposals训练Fast R-CNN。网络使用Fast R-CNN微调，然后用来初始化RPN,迭代这个过程。

(ii) 近似联合训练。在每次SGD迭代时，前馈计算生成区域推荐，看作训练Fast R-CNN检测器的预计算推荐。反馈传播中共享层传播RPN和Fast R-CNN结合的损失。这种方式忽略了关于推荐框坐标的导数。

(iii) 非近似联合训练。Fast R-CNN中的 RoI pooling层接收卷积特征和预测的bounding boxes作为输入，这时反向传播会涉及到box corrdinates.这时需要RoI poling层关于box coordinates是可微的。

1.2.1 4-步交替训练

第一步，训练RPN，用预训练的ImageNet模型初始化，端到端微调区域推荐任务。第二步，通过Fast R-CNN训练一个单独的检测网络，从第一步的模型中产生推荐框。这个网络也用ImageNet模型初始化。这时候两个网络不共享卷积层。第三步，使用检测网络初始化RPN训练，固定了共享卷积层，只微调独属于RPN的层。现在两个网络共享卷积层。第四步，使卷积层固定，微调独属于Fast R-CNN的层。这样，两个网络共享了卷基层，形成了一个统一网络。

1.3 实现细节

训练时，会将与边界有交叉的anchors删除，否则会难以收敛。测试时，仅仅将与边界交叉的anchors切到边界即可。