RCNN,Fast RCNN,Faster RCNN 的前生今世：（1） Selective Search

Selective Search for Object Recoginition

这篇论文是J.R.R. Uijlings发表在2012 IJCV上的一篇文章，主要介绍了选择性搜索（Selective Search）的方法。物体识别（Object Recognition），在图像中找到确定一个物体，并找出其为具体位置，经过长时间的发展已经有了不少成就。之前的做法主要是基于穷举搜索（Exhaustive Search），选择一个窗口（window）扫描整张图像（image），改变窗口的大小，继续扫描整张图像。显然这种做法是比较“原始的”，改变窗口大小，扫描整张图像，直观上就给人一种非常耗时，结果太杂的印象。作者能够突破思维定式，从另一个角度给出一种简单而又有效的方法，油生敬意。我们不禁会想，为什么这么简单的方法之前没有想到呢。我想这个应该跟对图像认识的观念有关系，在都不知道如何做物体识别（Object Recognition）的时候，较为“原始的”穷举搜索方法，给了大家一个方向，之后所有的人都沿着这个方向走，最后就忽略了对其他方向的认识。花费了这么多年，才找到另一个方向，这个转变实属不易。扯远了，总之，这种方法确实让人耳目一新。

一、介绍（Introduction）

图像（Image）包含的信息非常的丰富，其中的物体（Object）有不同的形状（shape）、尺寸（scale）、颜色（color）、纹理（texture），要想从图像中识别出一个物体非常的难，还要找到物体在图像中的位置，这样就更难了。下图给出了四个例子，来说明物体识别（Object Recognition）的复杂性以及难度。（a）中的场景是一张桌子，桌子上面放了碗，瓶子，还有其他餐具等等。比如要识别“桌子”，我们可能只是指桌子本身，也可能包含其上面的其他物体。这里显示出了图像中不同物体之间是有一定的层次关系的。（b）中给出了两只猫，可以通过纹理（texture）来找到这两只猫，却又需要通过颜色（color）来区分它们。（c）中变色龙和周边颜色接近，可以通过纹理（texture）来区分。（d）中的车辆，我们很容易把车身和车轮看做一个整体，但它们两者之间在纹理（texture）和颜色（color）方面差别都非常地大。

上面简单说明了一下在做物体识别（Object Recognition）过程中，不能通过单一的策略来区分不同的物体，需要充分考虑图像物体的多样性（diversity）。另外，在图像中物体的布局有一定的层次（hierarchical）关系，考虑这种关系才能够更好地对物体的类别（category）进行区分。

在深入介绍Selective Search之前，先说说其需要考虑的几个问题：

1. 适应不同尺度（Capture All Scales）：穷举搜索（Exhaustive Selective）通过改变窗口大小来适应物体的不同尺度，选择搜索（Selective Search）同样无法避免这个问题。算法采用了图像分割（Image Segmentation）以及使用一种层次算法（Hierarchical Algorithm）有效地解决了这个问题。

2. 多样化（Diversification）：单一的策略无法应对多种类别的图像。使用颜色（color）、纹理（texture）、大小（size）等多种策略对（【1】中分割好的）区域（region）进行合并。

3. 速度快（Fast to Compute）

二、区域合并算法

这里是基于区域的合并，区域包含的信息比像素丰富，更能够有效地代表物体的特征。

输入：彩色图片（三通道）

输出：物体位置的可能结果L

1. 使用 Efficient Graph-Based Image Segmentation【1】的方法获取原始分割区域R={r1,r2,…,rn}

2. 初始化相似度集合S=∅

3. 计算两两相邻区域之间的相似度（见第三部分），将其添加到相似度集合S中

4. 从相似度集合S中找出，相似度最大的两个区域 ri 和rj，将其合并成为一个区域 rt，从相似度集合中除去原先与ri和rj相邻区域之间计算的相似度，计算rt与其相邻区域（原先与ri或rj相邻的区域）的相似度，将其结果添加的到相似度集合S中。同时将新区域 rt 添加到区域集合R中。

5. 获取每个区域的Bounding Boxes，这个结果就是物体位置的可能结果L

三、多样化策略

论文作者给出了两个方面的多样化策略：颜色空间多样化，相似多样化。

颜色空间多样化

作者采用了8中不同的颜色方式，主要是为了考虑场景以及光照条件等。这个策略主要应用于【1】中图像分割算法中原始区域的生成。主要使用的颜色空间有：（1）RGB，（2）灰度I，（3）Lab，（4）rgI（归一化的rg通道加上灰度），（5）HSV，（6）rgb（归一化的RGB），（7）C（具体请看论文【2】以及【5】），（8）H（HSV的H通道）

对颜色空间了解不深，在此不便深入说明，等着以后慢慢深入计算机视觉领域。

相似度计算多样化

在区域合并的时候有说道计算区域之间的相似度，论文章介绍了四种相似度的计算方法。

1. 颜色（color）相似度

使用L1-norm归一化获取图像每个颜色通道的25 bins的直方图，这样每个区域都可以得到一个75维的向量

，区域之间颜色相似度通过下面的公式计算：

在区域合并过程中使用需要对新的区域进行计算其直方图，计算方法：

2. 纹理（texture）相似度

这里的纹理采用SIFT-Like特征。具体做法是对每个颜色通道的8个不同方向计算方差σ=1的高斯微分（Gaussian Derivative），每个通道每个颜色获取10 bins的直方图（L1-norm归一化），这样就可以获取到一个240维的向量

，区域之间纹理相似度计算方式和颜色相似度计算方式类似，合并之后新区域的纹理特征计算方式和颜色特征计算相同：

3. 大小（size）相似度

这里的大小是指区域中包含像素点的个数。使用大小的相似度计算，主要是为了尽量让小的区域先合并：

4. 吻合（fit）相似度

这里主要是为了衡量两个区域是否更加“吻合”，其指标是合并后的区域的Bounding Box（能够框住区域的最小矩形（没有旋转））越小，其吻合度越高。其计算方式：

最后将上述相似度计算方式组合到一起，可以写成如下，其中

：

四、使用选择搜索（Selective Search）进行物体识别

通过前面的区域合并，可以得到一些列物体的位置假设L。接下来的任务就是如何从中找出物体的真正位置并确定物体的类别。常用的物体识别特征有HOG（Histograms of oriented gradients）和 bag-of-words 两种特征。在穷举搜索（Exhaustive Search）方法中，寻找合适的位置假设需要花费大量的时间，能选择用于物体识别的特征不能太复杂，只能使用一些耗时少的特征。由于选择搜索（Selective Search）在得到物体的位置假设这一步效率较高，其可以采用诸如SIFT等运算量大，表示能力强的特征。在分类过程中，系统采用的是SVM。

特征生成

系统在实现过程中，使用color-SIFT特征【6】以及spatial pyramid divsion方法【7】。在一个尺度下σ=1.2下抽样提取特征。使用SIFT、Extended OpponentSIFT【8】、RGB-SIFT【6】特征，在四层金字塔模型 1×1、2×2、3×3、4×4，提取特征，可以得到一个维的特征向量。

训练方法采用SVM。首先选择包含真实结果（ground truth）的物体窗口作为正样本（positive examples），选择与正样本窗口重叠20%~50%的窗口作为负样本（negative examples）。在选择样本的过程中剔除彼此重叠70%的负样本，这样可以提供一个较好的初始化结果。在重复迭代过程中加入hard negative examples（得分很高的负样本）【9】，由于训练模型初始化结果较好，模型只需要迭代两次就可以了。（样本的筛选很重要！！）

五、性能评价

很自然地，通过算法计算得到的包含物体的Bounding Boxes与真实情况（ground truth）的窗口重叠越多，那么算法性能就越好。这是使用的指标是平均最高重叠率ABO（Average Best Overlap）。对于每个固定的类别 c，每个真实情况（ground truth）表示为

，令计算得到的位置假设L中的每个值l，那么 ABO的公式表达为：

重叠率的计算方式：

上面结果给出的是一个类别的ABO，对于所有类别下的性能评价，很自然就是使用所有类别的ABO的平均值MABO（Mean Average Best Overlap）来评价。

上面基本上讲了一下，这篇论文的框架，在【2】中可以下载得到该论文相对应的matlab代码（也可以在【10】中下载）。通过该代码，获取得到图像中物体的位置假设L。之后我们可以利用这个结果进行更加深入的研究。由于原matlab代码中部分代码经过了加密，正在使用C++对其进行重写，得到结果完善之后，会将其公开。由于入门不深，上面的理解不免有些错误，望各位指正，希望与大家多多交流~~

参考资料：

【1】CSDN：Efficient Graph-Based Image Segmentation

【2】Selective Search

【3】CSDN：Selective Search for Object Recognition

【4】Recognition Using Regions

【5】Color Invariance

【6】Evaluating color descriptors for object and scene recognition

【7】Spatial pyramid matching for recognizing natural scene categories

【8】Illumination-invariant descriptors for discrimative visual object categorization，Technical report, University of Amsterdam（没有找到相关链接）

【9】Object detection with discriminatively trained part based models

【10】相关源代码（matlab）

【11】C++简版代码

RCNN,Fast RCNN,Faster RCNN 的前生今世：（1） Selective Search的更多相关文章

Java NIO 的前生今世之四 NIO Selector 详解
Selector Selector 允许一个单一的线程来操作多个 Channel. 如果我们的应用程序中使用了多个 Channel, 那么使用 Selector 很方便的实现这样的目的, 但是因为在一 ...
揭秘 BPF map 前生今世
揭秘 BPF map 前生今世本文地址:https://www.ebpf.top/post/map_internal 1. 前言众所周知,map 可用于内核 BPF 程序和用户应用程序之间实现双向 ...
RCNN,Fast RCNN,Faster RCNN 的前生今世：（2）R-CNN
Region CNN(RCNN)可以说是利用深度学习进行目标检测的开山之作.作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂,2010年更带领团队获得终身成就奖,如今供职于 ...
RCNN,Fast RCNN,Faster RCNN 的前生今世：（4） Fast RCNN 算法详解
继2014年的RCNN之后,Ross Girshick在15年推出Fast RCNN,构思精巧,流程更为紧凑,大幅提升了目标检测的速度.在Github上提供了源码. 同样使用最大规模的网络,Fast ...
RCNN,Fast RCNN,Faster RCNN 的前生今世：（2） R- CNN （3，2，1）
3.三次IOU 2.2次model run 1,一次深度神经网络 rcnn主要作用就是用于物体检测,就是首先通过selective search 选择2000个候选区域,这些区域中有我们需要的所对 ...
RCNN,Fast RCNN,Faster RCNN 的前生今世：（3） SPP - Net
SPP-Net是出自2015年发表在IEEE上的论文-<Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Reco ...
月光宝盒之时间魔法--java时间的前生今世
月光宝盒花絮 “曾经有一份真诚的爱情摆在我的面前,但是我没有珍惜,等到了失去的时候才后悔莫及,尘世间最痛苦的事莫过于此.如果可以给我一个机会再来一次的话,我会跟那个女孩子说我爱她,如果非要把这份爱加上 ...
RPC 原理的前生今世
(如果感觉有帮助,请帮忙点推荐,添加关注,谢谢!你的支持是我不断更新文章的动力.本博客会逐步推出一系列的关于大型网站架构.分布式应用.设计模式.架构模式等方面的系列文章) 在校期间大家都写过不少程序, ...
主动降噪技术（ANC）的前生今世--原理仿真
一原理: 主动降噪就是通过反相检测麦克风的声音或噪声来减弱周围环境的噪声让扬声器出来的声音听起来更清晰.主动降噪技术的目标就是通过一个自适应滤波器把不想要的噪声反相从而把噪声约束到固定的范围内.该系 ...

随机推荐

RDP Error: The Identity Of The Remote Computer Cannot Be Verified
As i always need to remote to 20 servers at the same time, so i use a tool called Remote Desktop Con ...
开发板与pc之间文件传输：kermit and lrzsz
imx6开发板与pc机之间通过串口传输文件步骤: 1. 安装好kermit并可以使用 2. 交叉编译lrzsz开源软件并把可执行程序lrz lsz拷贝到开发板 2.1 下载并解压lrzsz-0.12. ...
python基础 — random库
python中用于生成伪随机数的函数库是random 因为是标准库,使用时候只需要import random random库包含两类函数,常用的共8个 --基本随机函数: seed(), random ...
Python3定时器任务代码
使用threading写的一个定时器任务demo: import time import sys import signal import datetime import threading #定时器 ...
【转载】终于有人把“TCC分布式事务”的实现原理讲明白了
之前网上看到很多写分布式事务的文章,不过大多都是将分布式事务各种技术方案简单介绍一下.很多朋友看了还是不知道分布式事务到底怎么回事,在项目里到底如何使用. 所以这篇文章,就用大白话+手工绘图,并结合一 ...
Javascript实现的智能消防栓状态监测画面
系统需要添加智能消防栓模块.集成了一家采用NbIOT通讯的智能消防栓产品.由第厂家平台对接NbIot特联网平台,我们平台提供一个api从第三方平台接收消防栓状态,用SignlaR把状态推送到前端.需要 ...
glfw内存泄露测试
1. glfwInit() 和 glfwTerminate() 放在主线程循环次数 1 内存 14M 循环次数100 46M 循环次数1000 49M 2. glfw ...
node的启动环境
在开发的时候开发环境和正式环境用的接口地址是不一样的端口号可能也不一样,这时候就需要区分端口号,具体方法如下: 在package.json文件的scripts中设置启动命令的时候区分开发和正式: &q ...
js 一些有意思的小Demo
JavaScript之控制标签内容
function abb(a){ return document.getElementById(a); } console.log(abb('box').innerHTML); 标签.innerHTM ...

RCNN,Fast RCNN,Faster RCNN 的前生今世：（1） Selective Search

RCNN,Fast RCNN,Faster RCNN 的前生今世：（1） Selective Search的更多相关文章

随机推荐

热门专题