一、数据集文件夹

新建一个文件夹，用来存放整个数据集，或者和voc2007一样的名字：VOC2007
然后像voc2007一样，在文件夹里面新建如下文件夹：

二、将训练图片放到JPEGImages

将所有的训练图片放到该文件夹里，然后将图片重命名为VOC2007的“000005.jpg”形式

图片重命名的代码（c++，python，matlab），参考：http://blog.csdn.net/u011574296/article/details/72956446

三、标注图片，标注文件保存到Annotations

使用labelIImg 标注自己的图片

1、在git上下载源码：https://github.com/tzutalin/labelImg

2、按照网页上的使用方法使用
（1）安装PyQt4和Lxml

（2）在labelImage 的目录下 shift+右键打开cmd 运行一下命令：

pyrcc4 -o resources.py resources.qrc
python labelImg.py

注：这个时候，就会出现labelimage的窗口

（3）labelimg窗口的使用方法：
• 修改默认的XML文件保存位置，可以用“Ctrl+R”，改为自定义位置，这里的路径不能包含中文，否则无法保存。

• 源码文件夹中使用notepad++打开data/predefined_classes.txt，可以修改默认类别，比如改成bus、car、building三个类别。

•“Open Dir”打开需要标注的样本图片文件夹，会自动打开第一张图片，开始进行标注

• 使用“Create RectBox”开始画框

• 完成一张图片后点击“Save”，此时XML文件已经保存到本地了。

• 点击“Next Image”转到下一张图片。

• 标注过程中可随时返回进行修改，后保存的文件会覆盖之前的。

• 完成标注后打开XML文件，发现确实和PASCAL VOC所用格式一样。

每个图片和标注得到的xml文件，JPEGImages文件夹里面的一个训练图片，对应Annotations里面的一个同名XML文件，一一对应，命名一致

标注自己的图片的时候，类别名称请用小写字母，比如汽车使用car，不要用Car
pascal.py中读取.xml文件的类别标签的代码：
cls = self._class_to_ind[obj.find('name').text.lower().strip()]
写的只识别小写字母，如果你的标签含有大写字母，可能会出现KeyError的错误。

四、ImageSets\Main里的四个txt文件

在ImageSets里再新建文件夹，命名为Main，在Main文件夹中生成四个txt文件，即：

test.txt是测试集
train.txt是训练集
val.txt是验证集
trainval.txt是训练和验证集

VOC2007中，trainval大概是整个数据集的50%，test也大概是整个数据集的50%；train大概是trainval的50%，val大概是trainval的50%。

txt文件中的内容为样本图片的名字（不带后缀），格式如下：

根据已生成的xml，制作VOC2007数据集中的trainval.txt ； train.txt ； test.txt ； val.txt
trainval占总数据集的50%，test占总数据集的50%；train占trainval的50%，val占trainval的50%；
上面所占百分比可根据自己的数据集修改，如果数据集比较少，test和val可少一些

代码如下：

%注意修改下面四个值

xmlfilepath='E:\Annotations';

txtsavepath='E:\ImageSets\Main\';

trainval_percent=0.5; #trainval占整个数据集的百分比，剩下部分就是test所占百分比

train_percent=0.5; #train占trainval的百分比，剩下部分就是val所占百分比  

xmlfile=dir(xmlfilepath);

numOfxml=length(xmlfile)-2;#减去.和..  总的数据集大小  

trainval=sort(randperm(numOfxml,floor(numOfxml*trainval_percent)));

test=sort(setdiff(1:numOfxml,trainval));  

trainvalsize=length(trainval); #trainval的大小

train=sort(trainval(randperm(trainvalsize,floor(trainvalsize*train_percent))));

val=sort(setdiff(trainval,train));  

ftrainval=fopen([txtsavepath 'trainval.txt'],'w');

ftest=fopen([txtsavepath 'test.txt'],'w');

ftrain=fopen([txtsavepath 'train.txt'],'w');

fval=fopen([txtsavepath 'val.txt'],'w');  

for i=1:numOfxml

    if ismember(i,trainval)

        fprintf(ftrainval,'%s\n',xmlfile(i+2).name(1:end-4));

        if ismember(i,train)

            fprintf(ftrain,'%s\n',xmlfile(i+2).name(1:end-4));

        else

            fprintf(fval,'%s\n',xmlfile(i+2).name(1:end-4));

        end

    else

        fprintf(ftest,'%s\n',xmlfile(i+2).name(1:end-4));

    end

end

fclose(ftrainval);

fclose(ftrain);

fclose(fval);

fclose(ftest);

python代码:

# -*- coding:utf-8 -*-
import os
import random
trainval_percent = 0.66
train_percent = 0.5
xmlfilepath = 'C:/Users/Administrator/Desktop/VOC2007-train/Annotations'
txtsavepath = 'C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main'
total_xml = os.listdir(xmlfilepath)

num=len(total_xml)
list=range(num)
tv=int(num*trainval_percent)
tr=int(tv*train_percent)
trainval= random.sample(list,tv)
train=random.sample(trainval,tr)

ftrainval = open('C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main/trainval.txt', 'w')
ftest = open('C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main/test.txt', 'w')
ftrain = open('C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main/train.txt', 'w')
fval = open('C:/Users/Administrator/Desktop/VOC2007-train/ImageSets/Main/val.txt', 'w')

for i  in list:
    name=total_xml[i][:-4]+'\n'
    if i in trainval:
        ftrainval.write(name)
        if i in train:
             ftrain.write(name)
        else:
             fval.write(name)
    else:
         ftest.write(name)

ftrainval.close()
ftrain.close()
fval.close()
ftest .close()

使用labelImg制作自己的数据集（VOC2007格式）用于Faster-RCNN训练的更多相关文章

faster rcnn训练自己的数据集
采用Pascal VOC数据集的组织结构,来构建自己的数据集,这种方法是faster rcnn最便捷的训练方式
将数据集做成VOC2007格式用于Faster-RCNN训练
1.命名文件夹名VOC2007.图片名六位数字.将数据集相应的替换掉VOC2007中的数据. (Updated development kit, annotated test data ) 2. ...
Faster Rcnn训练自己的数据集过程大白话记录
声明:每人都有自己的理解,动手实践才能对细节更加理解! 一.算法理解此处省略一万字.................. 二.训练及源码理解首先配置: 在./lib/utils文件下....运行 p ...
仿照CIFAR-10数据集格式，制作自己的数据集
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50801226 前一篇博客:C/C++ ...
SSD-tensorflow-2 制作自己的数据集
VOC2007数据集格式: VOC2007详细介绍在这里,提供给大家有兴趣作了解.而制作自己的数据集只需用到前三个文件夹,所以请事先建好这三个文件夹放入同一文件夹内,同时ImageSets文件夹内包含 ...
Windows10+YOLOv3实现检测自己的数据集（1）——制作自己的数据集
本文将从以下三个方面介绍如何制作自己的数据集数据标注数据扩增将数据转化为COCO的json格式参考资料一.数据标注在深度学习的目标检测任务中,首先要使用训练集进行模型训练.训练的数据集好坏 ...
自动化工具制作PASCAL VOC 数据集
自动化工具制作PASCAL VOC 数据集 1. VOC的格式 VOC主要有三个重要的文件夹:Annotations.ImageSets和JPEGImages JPEGImages 文件夹该文件 ...
fcn+caffe+制作自己的数据集
参考博客: http://blog.csdn.net/jacke121/article/details/78160398 以视网膜血管分割的数据集为例: 训练样本: 训练标签: 标签图的制作依据voc ...
matlab遍历文件制作自己的数据集 .mat文件
原文作者:aircraft 原文地址:https://www.cnblogs.com/DOMLX/p/9115788.html 看到深度学习里面的教学动不动就是拿MNIST数据集,或者是IMGPACK ...

随机推荐

duilib+cef自定义浏览器控件编译错误
新版博客已经搭建好了,有问题请访问 htt://www.crazydebug.com 公司二期好主播项目,决定用duilib开发界面,且从ie内核换成谷歌内核再用duilib自定义一个Browser ...
WTL之手动编写框架窗口
新版博客已经搭建好了,有问题请访问 htt://www.crazydebug.com 本人是一个实践主义者,不罗嗦上一篇工程搭建好以后,这一篇就开始写代码,写之前再说几句,如果你熟悉MFC分析过MFC ...
springcloud--zuul（过滤器）
在zuul添加过滤器新建类继承ZuulFilter类. public class MyFilter extends ZuulFilter{ //是否需要过滤 @Override public boo ...
cf 763B. Timofey and rectangles
%%题解,脑洞好大啊. 四色定理什么鬼的..所以一定是yes. 因为矩形边长都是奇数,所以可以按左下角分类,一共4类,分别1,2,3,4就可以了. (需要4种颜色的情况大概就是4个矩形围起来一个矩形) ...
java流程控制语句要点
java流程控制语句要点一.java7增强后的switch switch语句后面的控制表达式的数据类型只能是byte.short.char.int四种整数类型,不能是boolean类型,java7以 ...
106-PHP查看类成员属性
<?php class mao{ //定义猫类 public $age; //定义多个成员属性 protected $weight; private $color; } $mao1=new ma ...
Bean Java配置
Spring 系列教程 Spring 框架介绍 Spring 框架模块 Spring开发环境搭建(Eclipse) 创建一个简单的Spring应用 Spring 控制反转容器(Inversion of ...
git仓库管理
删除本地仓库当前关联的无效远程地址,再为本地仓库添加新的远程仓库地址 git remote -v //查看git对应的远程仓库地址 git remote rm origin //删除关联对应的远程仓库 ...
面试官，不要再问我“Java 垃圾收集器”了(转载)
如果Java虚拟机中标记清除算法.标记整理算法.复制算法.分代算法这些属于GC收集算法中的方法论,那么"GC收集器"则是这些方法论的具体实现. 在面试过程中这个深度的问题涉及的比 ...
storm on yarn(CDH5) 部署笔记
按照storm on yarn(Apache hadoop)部署好之后,然后修改HADOOP_HOME,hadoopenv.sh中的JAVA_HOME,以及storm-yarn-master中pom. ...

使用labelImg制作自己的数据集（VOC2007格式）用于Faster-RCNN训练