使用ImageNet在faster-rcnn上训练自己的分类网络

具体代码见https://github.com/zhiyishou/py-faster-rcnn

这是我对cup, glasses训练的识别

faster-rcnn在fast-rcnn的基础上加了rpn来将整个训练都置于GPU内，以用来提高效率，这里我们将使用ImageNet的数据集来在faster-rcnn上来训练自己的分类器。从ImageNet上可下载到很多类别的Image与bounding box annotation来进行训练（每一个类别下的annotation都少于等于image的个数，所以我们从annotation来建立索引）。

在lib/dataset/factory.py中提供了coco与voc的数据集获取方法，而我们要做的就是在这里加上我们自己的ImageNet获取方法，我们先来建立ImageNet数据获取主文件。coco与pascal_voc的获取都是继承于父类imdb，所以我们可根据pascal_voc的获取方法来做模板修改完成我们的ImageNet类。

创建ImageNet类

由于在faster-rcnn里使用rpn来代替了selective_search，所以我们可以在使用时直接略过有关selective_search的方法，根据pascal_voc类做模板，我们需要留下的方法有：

__init__ //初始化

image_path_at //根据数据集列表的index来取图片绝对地址

image_path_from_index //配合上面

_load_image_set_index //获取数据集列表

_gt_roidb //获取ground-truth数据

rpn_roidb //获取region proposal数据

_load_rpn_roidb //根据gt_roidb生成rpn_roidb数据并合成

_load_psacal_annotation //加载annotation文件并对bounding box进行数据整理

__init__:

def __init__(self, image_set):

        imdb.__init__(self, 'imagenet')

        self._image_set = image_set

        self._data_path = os.path.join(cfg.DATA_DIR, "imagenet")

        #类别与对应的wnid，可以修改成自己要训练的类别

        self._class_wnids = {

            'cup': 'n03147509',

            'glasses': 'n04272054'

        }

        #类别，修改类别时同时要修改这里

        self._classes = ('__background__', self._class_wnids['cup'], self._class_wnids['glasses'])

        self._class_to_ind = dict(zip(self.classes, xrange(self.num_classes)))

        #bounding box annotation 文件的目录

        self._xml_path = os.path.join(self._data_path, "Annotations")

        self._image_ext = '.JPEG'

        #我们使用xml文件名来做数据集的索引

        # the xml file name and each one corresponding to image file name

        self._image_index = self._load_xml_filenames()

        self._salt = str(uuid.uuid4())

        self._comp_id = 'comp4'

        self.config = {'cleanup'     : True,

                       'use_salt'    : True,

                       'use_diff'    : False,

                       'matlab_eval' : False,

                       'rpn_file'    : None,

                       'min_size'    : 2}

        assert os.path.exists(self._data_path), \

                'Path does not exist: {}'.format(self._data_path)

image_path_at

def image_path_at(self, i):

        #使用index来从xml_filenames取到filename，生成绝对路径

        return self.image_path_from_image_filename(self._image_index[i])

image_path_from_image_filename(类似pascal_voc中的image_path_from_index)

def image_path_from_image_filename(self, image_filename):

        image_path = os.path.join(self._data_path, 'Images',

                                  image_filename + self._image_ext)

        assert os.path.exists(image_path), \

                'Path does not exist: {}'.format(image_path)

        return image_path

_load_xml_filenames(类似pascal_voc中的_load_image_set_index)

def _load_xml_filenames(self):

        #从Annotations文件夹中拿取到bounding box annotation文件名

        #用来做数据集的索引

        xml_folder_path = os.path.join(self._data_path, "Annotations")

        assert os.path.exists(xml_folder_path), \

            'Path does not exist: {}'.format(xml_folder_path)

        for dirpath, dirnames, filenames in os.walk(xml_folder_path):

                xml_filenames = [xml_filename.split(".")[0] for xml_filename in filenames]

        return xml_filenames

gt_roidb

def gt_roidb(self):

        #Ground-Truth 数据缓存

        cache_file = os.path.join(self.cache_path, self.name + '_gt_roidb.pkl')

        if os.path.exists(cache_file):

            with open(cache_file, 'rb') as fid:

                roidb = cPickle.load(fid)

            print '{} gt roidb loaded from {}'.format(self.name, cache_file)

            return roidb

        #从xml中获取Ground-Truth数据

        gt_roidb = [self._load_imagenet_annotation(xml_filename)

                    for xml_filename in self._image_index]

        with open(cache_file, 'wb') as fid:

            cPickle.dump(gt_roidb, fid, cPickle.HIGHEST_PROTOCOL)

        print 'wrote gt roidb to {}'.format(cache_file)

        return gt_roidb

rpn_roidb

def rpn_roidb(self):

        #根据gt_roidb生成rpn_roidb，并进行合并

        gt_roidb = self.gt_roidb()

        rpn_roidb = self._load_rpn_roidb(gt_roidb)

        roidb = imdb.merge_roidbs(gt_roidb, rpn_roidb)

        return roidb

_load_rpn_roidb

def _load_rpn_roidb(self, gt_roidb):

        filename = self.config['rpn_file']

        print 'loading {}'.format(filename)

        assert os.path.exists(filename), \

               'rpn data not found at: {}'.format(filename)

        with open(filename, 'rb') as f:

            box_list = cPickle.load(f)

        return self.create_roidb_from_box_list(box_list, gt_roidb)

_load_imagenet_annotation(类似于pascal_voc中的_load_pascal_annotation)

def _load_imagenet_annotation(self, xml_filename):

        #从annotation的xml文件中拿取bounding box数据

        filepath = os.path.join(self._data_path, 'Annotations', xml_filename + '.xml')

        #这里使用了ap，是我写的一个annotation parser，在后面贴出代码

        #它会返回这个xml文件的wnid, 图像文件名，以及里面包含的注解物体

        wnid, image_name, objects = ap.parse(filepath)

        num_objs = len(objects)

        boxes = np.zeros((num_objs, 4), dtype=np.uint16)

        gt_classes = np.zeros((num_objs), dtype=np.int32)

        overlaps = np.zeros((num_objs, self.num_classes), dtype=np.float32)

        seg_areas = np.zeros((num_objs), dtype=np.float32)

        # Load object bounding boxes into a data frame.

        for ix, obj in enumerate(objects):

            box = obj["box"]

            x1 = box['xmin']

            y1 = box['ymin']

            x2 = box['xmax']

            y2 = box['ymax']

            # 如果这个bounding box并不是我们想要学习的类别，那则跳过

            # go next if the wnid not exist in declared classes

            try:

                cls = self._class_to_ind[obj["wnid"]]

            except KeyError:

                print "wnid %s isn't show in given"%obj["wnid"]

                continue

            boxes[ix, :] = [x1, y1, x2, y2]

            gt_classes[ix] = cls

            overlaps[ix, cls] = 1.0

            seg_areas[ix] = (x2 - x1 + 1) * (y2 - y1 + 1)

        overlaps = scipy.sparse.csr_matrix(overlaps)

        return {'boxes' : boxes,

                'gt_classes': gt_classes,

                'gt_overlaps' : overlaps,

                'flipped' : False,

                'seg_areas' : seg_areas}

annotation_parser.py文件

import os

import xml.dom.minidom

def getText(node):

	return node.firstChild.nodeValue

def getWnid(node):

	return getText(node.getElementsByTagName("name")[0])

def getImageName(node):

	return getText(node.getElementsByTagName("filename")[0])

def getObjects(node):

	objects = []

	for obj in node.getElementsByTagName("object"):

		objects.append({

			"wnid": getText(obj.getElementsByTagName("name")[0]),

			"box":{

				"xmin": int(getText(obj.getElementsByTagName("xmin")[0])),

				"ymin": int(getText(obj.getElementsByTagName("ymin")[0])),

				"xmax": int(getText(obj.getElementsByTagName("xmax")[0])),

				"ymax": int(getText(obj.getElementsByTagName("ymax")[0])),

			}

		})

	return objects

def parse(filepath):

	dom = xml.dom.minidom.parse(filepath)

	root = dom.documentElement

	image_name = getImageName(root)

	wnid = getWnid(root)

	objects = getObjects(root)

	return wnid, image_name, objects

则对数据结构的要求是：

|---data

  |---imagenet

    |---Annotations

       |---n03147509

          |---n03147509_*.xml

          |---...

       |---n04272054

          |---n04272054_*.xml

          |---...

    |---Images

       |---n03147508_*.JPEG

       |---...

       |---n04272054_*.JPEG

       |---...

同时我在github上也提供了draw方法，可以用来将bounding box画于Image文件上，用来甄别该annotation的正确性

训练

这样，我们的ImageNet类则是生成好了，下面我们则可以训练我们的数据，但是在开始之前，还有一件事情，那就是修改prototxt中的与类别数目有关的值，我将models/pascal_voc拷贝到了models/imagenet进行修改，比如我想要训练ZF，如果使用的是train_faster_rcnn_alt_opt.py，则需要修改models/imagenet/ZF/faster_rcnn_alt_opt/下的所有pt文件里的内容，用如下的法则去替换：

//num为类别的个数

input-data->num_classes = num

class_score->num_output = num

bbox_pred->num_output   = num*4

我这里使用train_faster_rcnn_alt_opt.py进行的训练，这样的话则需要把添加的models/imagenet作为可选项

//pt_type 则是添加的选择项，默认使用psacal_voc的models

./tools/train_faster_rcnn_alt_opt.py --gpu 0 \

--net_name ZF \

--weights data/imagenet_models/ZF.v2.caffemodel[optional] \

--imdb imagenet \

--cfg experiments/cfgs/faster_rcnn_alt_opt.yml \

--pt_type imagenet

识别

这里我们则需要使用刚训练出来的模型进行识别

#就像demo.py一样，但是使用训练的models，我创建了tools/classify.py来单独识别

prototxt = os.path.join(cfg.ROOT_DIR, 'models/imagenet', NETS[args.demo_net][0], 'faster_rcnn_alt_opt', 'faster_rcnn_test.pt')

caffemodel = os.path.join(cfg.ROOT_DIR, 'output/faster_rcnn_alt_opt/imagenet/'+ NETS[args.demo_net][0] +'_faster_rcnn_final.caffemodel')

同样，在识别前我们要对识别方法里的Classes进行修改，修改成你自己训练的类别后

执行

./tools/classify.py --net zf

则可对data/demo下的图片文件使用训练的zf网络进行识别

Have fun

使用ImageNet在faster-rcnn上训练自己的分类网络的更多相关文章

Faster RCNN算法训练代码解析（1）
这周看完faster-rcnn后,应该对其源码进行一个解析,以便后面的使用. 那首先直接先主函数出发py-faster-rcnn/tools/train_faster_rcnn_alt_opt.py ...
Faster RCNN算法训练代码解析（3）
四个层的forward函数分析: RoIDataLayer:读数据,随机打乱等 AnchorTargetLayer:输出所有anchors(这里分析这个) ProposalLayer:用产生的anch ...
Faster RCNN算法训练代码解析（2）
接着上篇的博客,我们获取imdb和roidb的数据后,就可以搭建网络进行训练了. 我们回到trian_rpn()函数里面,此时运行完了roidb, imdb = get_roidb(imdb_name ...
目标检测（四）Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
作者:Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun SPPnet.Fast R-CNN等目标检测算法已经大幅降低了目标检测网络的运行时间. ...
Faster R-CNN利用新的网络结构来训练
前言最近利用Faster R-CNN训练数据,使用ZF模型,效果无法有效提高.就想尝试对ZF的网络结构进行改造,记录下具体操作. 一.更改网络,训练初始化模型这里为了方便,我们假设更换的网络名为L ...
object detection[faster rcnn]
这部分,写一写faster rcnn 0. faster rcnn 经过了rcnn,spp,fast rcnn,又到了faster rcnn,作者在对前面的模型回顾中发现,fast rcnn提出的ro ...
基于候选区域的深度学习目标检测算法R-CNN，Fast R-CNN，Faster R-CNN
参考文献 [1]Rich feature hierarchies for accurate object detection and semantic segmentation [2]Fast R-C ...
【神经网络与深度学习】【计算机视觉】Faster R-CNN
Faster R-CNN Fast-RCNN基本实现端对端(除了proposal阶段外),下一步自然就是要把proposal阶段也用CNN实现(放到GPU上).这就出现了Faster-RCNN,一个完 ...
Paper Reading:Faster RCNN
Faster R-CNN 论文:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 发表时间: ...

随机推荐

vs2012 遇到 “此操作要求使用 IIS 集成管线模式。”
这个项目是VS2013开发的,我用2012打开想调试,但报这个错误. 最后安装2013,然后调试则正常.
读书笔记：Sheldon Ross：概率论基础教程：随机变量
例1b 一个坛子里装有编号1-20的球,无放回抽取3个,取出球中至少一个号码大于等于17的概率是多少? 除了书上的解法外,还有一种解法: 考虑相反的情况:三个球的号码都小于17. 第一次从编号1-16 ...
监控Linux性能的18个命令行工具
监控 Linux 性能的 18 个命令行工具对于系统和网络管理员来说每天监控和调试Linux系统的性能问题是一项繁重的工作.在IT领域作为一名Linux系统的管理员工作5年后,我逐渐认识到监控和保 ...
在Visual Studio里配置及查看IL（转载）
原文地址:http://www.myext.cn/other/a_25162.html 在之前的版本VS2010中,在Tools下有IL Disassembler(IL中间语言查看器),但是我想直接集 ...
Python 向上取整的算法
一.初衷: 有时候我们分页展示数据的时候,需要计算页数.一般都是向上取整,例如counts=205 pageCouts=20 ,pages= 11 页. 一般的除法只是取整数部分,达不到要求. 二.方 ...
JDK动态代理与Cglib库
JDK动态代理代理模式是常用的java设计模式,他的特征是代理类与委托类有同样的接口,代理类主要负责为委托类预处理消息.过滤消息.把消息转发给委托类,以及事后处理消息等.代理类与委托类之间通常会存在 ...
CEO应向软件工程师学习的7个技能
软件工程师的哪些技能是值得CEO学习的?显然,软件工程师是逻辑的,高效的,注重细节的,有计划的,并且大多数CEO也是如此.但是,软件工程师还有一些更微妙,甚至是令人懊恼的品质,那么CEO是否可以从中学 ...
android 列表开发 ListView
1.android 端二个entity consultInfo: private String name; private String id; consultInfoRef private iLi ...
gRPC 的 RoadMap 20160325 更新
gRPC是一个高性能.通用的开源RPC框架,其由Google主要面向移动应用开发并基于HTTP/2协议标准而设计,基于ProtoBuf(Protocol Buffers)序列化协议开发,且支持众多开发 ...
安装配置opensips
opensips提供了一个视频教程(这个页面有下载链接,90M),参考教程 wget http://opensips.org/pub/opensips/1.9.1/src/opensips-1.9.1 ...

使用ImageNet在faster-rcnn上训练自己的分类网络

创建ImageNet类

训练

识别

使用ImageNet在faster-rcnn上训练自己的分类网络的更多相关文章

随机推荐

热门专题