xml转voc数据集（含分享数据集）

原始图片和.xml数据目录结构如下：

.

└── data

    ├── 003002_0.jpg

    ├── 003002_0.xml

    ├── 003002_1.jpg

    ├── 003002_1.xml

    ├── 003008_1.jpg

    ├── 003008_1.xml

    └── .......

└── xml2voc2007.py

data目录下就是你的数据集原始图片，加上标注的.xml文件。
xml2voc2007.py源码放到这篇文章的最后边。

在labelme2coco.py文件的目录下，打开命令行执行：

python xml2voc2007.py --input_dir data --output_dir VOCdevkit

--input_dir：指定data文件夹，默认输入为xml2voc2007.py同级目录下的data文件夹。
--output_dir：指定你的输出文件夹，默认输出为xml2voc2007.py同级目录下的VOCdevkit文件夹（没有的话就会创建）。

执行结果如下图：

生成的voc数据集目录结构如下：

 .

└── VOCdevkit

    └── VOC2007

        ├── Annotations

        │   ├── 003002_0.xml

        │   ├── 003002_1.xml

        │   ├── 003008_1.xml

        │   └── .......

        ├── ImageSets

        │   └── Main

        │       ├── test.txt

        │       ├── train.txt

        │       ├── trainval.txt

        │       └── val.txt

        └── JPEGImages

            ├── 003002_0.jpg

            ├── 003002_1.jpg

            ├── 003008_1.jpg

            └──.......

如果想调整训练集验证集的比例，可以在labelme2coco.py源码中搜索 percent_trainval （训练集和验证集在总数中的占比），percent_train，（训练集在percent_trainval中的占比）

xml2voc2007.py源码：

# 命令行执行：  python xml2voc2007.py --input_dir data --output_dir VOCdevkit

import argparse

import glob

import os

import random

import os.path as osp

import sys

import shutil

percent_train = 0.9

# 主程序执行

def main():

    parser = argparse.ArgumentParser(

        formatter_class=argparse.ArgumentDefaultsHelpFormatter

    )

    parser.add_argument("--input_dir", default="data", help="input annotated directory")

    parser.add_argument("--output_dir", default="VOCdevkit", help="output dataset directory")

    args = parser.parse_args()

    if osp.exists(args.output_dir):

        print("Output directory already exists:", args.output_dir)

        sys.exit(1)

    os.makedirs(args.output_dir)

    print("| Creating dataset dir:", osp.join(args.output_dir, "VOC2007"))

    # 创建保存的文件夹

    if not os.path.exists(osp.join(args.output_dir, "VOC2007", "Annotations")):

        os.makedirs(osp.join(args.output_dir, "VOC2007", "Annotations"))

    if not os.path.exists(osp.join(args.output_dir, "VOC2007", "ImageSets")):

        os.makedirs(osp.join(args.output_dir, "VOC2007", "ImageSets"))

    if not os.path.exists(osp.join(args.output_dir, "VOC2007", "ImageSets", "Main")):

        os.makedirs(osp.join(args.output_dir, "VOC2007", "ImageSets", "Main"))

    if not os.path.exists(osp.join(args.output_dir, "VOC2007", "JPEGImages")):

        os.makedirs(osp.join(args.output_dir, "VOC2007", "JPEGImages"))

    # 获取目录下所有的.jpg文件列表

    total_img = glob.glob(osp.join(args.input_dir, "*.jpg"))

    print('| Image number: ', len(total_img))

    # 获取目录下所有的joson文件列表

    total_xml = glob.glob(osp.join(args.input_dir, "*.xml"))

    print('| Xml number: ', len(total_xml))

    num_total = len(total_xml)

    data_list = range(num_total)

    num_tr = int(num_total * percent_train)

    num_train = random.sample(data_list, num_tr)

    print('| Train number: ', num_tr)

    print('| Val number: ', num_total - num_tr)

    file_train = open(

        osp.join(args.output_dir, "VOC2007", "ImageSets", "Main", "train.txt"), 'w')

    file_val = open(

        osp.join(args.output_dir, "VOC2007", "ImageSets", "Main", "val.txt"), 'w')

    for i in data_list:

        name = total_xml[i][:-4] + '\n'

        if i in num_train:

            file_train.write(name[5:])

        else:

            file_val.write(name[5:])

    file_train.close()

    file_val.close()

    if os.path.exists(args.input_dir):

        # root 所指的是当前正在遍历的这个文件夹的本身的地址

        # dirs 是一个 list，内容是该文件夹中所有的目录的名字(不包括子目录)

        # files 同样是 list, 内容是该文件夹中所有的文件(不包括子目录)

        for root, dirs, files in os.walk(args.input_dir):

            for file in files:

                src_file = osp.join(root, file)

                if src_file.endswith(".jpg"):

                    shutil.copy(src_file, osp.join(args.output_dir, "VOC2007", "JPEGImages"))

                else:

                    shutil.copy(src_file, osp.join(args.output_dir, "VOC2007", "Annotations"))

    print('| Done!')

if __name__ == "__main__":

    print("—" * 50)

    main()

    print("—" * 50)

xml转voc数据集（含分享数据集）的更多相关文章

人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计 ...
机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集
机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集选自Microsoft www.tz365.Cn 作者:Lee Scott 机器之心编译参与:李亚洲.吴攀. ...
mnist数据集下载——mnist数据集提供百度网盘下载地址
mnist数据集是由深度学习大神 LeCun等人制作完成的数据集,mnist数据集也常认为是深度学习的“ Hello World!”. 官网:http://yann.lecun.com/exdb/mn ...
【Python图像特征的音乐序列生成】关于数据集的分享和样例数据
数据集还在制作中,样例数据如下: 我将一条数据作为一行,X是ID,O代表了情感向量,S是速度,是一个很关键的参数,K是调式,M是节拍,L是基本拍.后面是ABC格式的序列,通过embedding化这些音 ...
数据集 —— ground truth 数据集
1. matlab 自带含 ground truth 数据集 %% 加载停车标志数据到内存: data = load('stopSignsAndCars.mat', 'stopSignsAndCars ...
R语言重要数据集分析研究—— 数据集本身的分析技巧
数据集本身的分析技巧作者:王立敏文章来源:网络 1.数据集数据集,又称为资料集.数据集合或资料集合,是一种由数据所组成的集合. Data set(或dat ...
将TUM数据集的RGB-D数据集转化为klg格式
1.在github上下载代码png_to_klg git clone https://github.com/HTLife/png_to_klg 2.将png_to_klg目录下的associate.p ...
XML的相关基础知识分享
XML和Json是两种最常用的在网络中数据传输的数据序列化格式,随着时代的变迁,XML序列化用于网络传输也逐渐被Json取代,前几天,单位系统集成开发对接接口时,发现大部分都用的WebService技 ...
XML的相关基础知识分享(二)
前面我们讲了一下XML相关的基础知识(一),下面我们在加深一下,看一下XML高级方面. 一.命名空间 1.命名冲突 XML命名空间提供避免元素冲突的方法. 命名冲突:在XML中,元素名称是由开发者定义 ...
【猫狗数据集】pytorch训练猫狗数据集之创建数据集
猫狗数据集的分为训练集25000张,在训练集中猫和狗的图像是混在一起的,pytorch读取数据集有两种方式,第一种方式是将不同类别的图片放于其对应的类文件夹中,另一种是实现读取数据集类,该类继承tor ...

随机推荐

原生、复杂流程操作、融合专家系统，澜码科技发布企业级Agent平台AskXBOT
AI原生企业级Agent构建平台具备哪些特性?澜码AskXBOT平台揭晓答案澜码科技正式发布了AI原生企业级Agent平台AskXBOT,怎么看待这个产品? 原生.复杂流程操作.融合专家系统,澜码科 ...
文心一言 VS 讯飞星火 VS chatgpt （210）-- 算法导论16.1 1题
一.根据递归式(16.2)为活动选择问题设计一个动态规划算法.算法应该按前文定义计算最大兼容活动集的大小 c[i,j]并生成最大集本身.假定输入的活动已按公式(16.1)排好序.比较你的算法和GREE ...
实现一个 SEO 友好的响应式多语言官网 (Vite-SSG + Vuetify3) 我的踩坑之旅
在 2023 年的年底,我终于有时间下定决心把我的 UtilMeta 项目官网进行翻新,主要的原因是之前的官网是用 Vue2 实现的一个 SPA 应用,对搜索引擎 SEO 很不友好,这对于介绍项目的 ...
JS3-高级事件
获取事件和处理事件的第二种方式:事件监听如何获取和处理鼠标与键盘的基本事件? 事件监听方式 eventTarget.addEventListener(type,listener[,useCaptur ...
vue 可选链功能 ?. 替代 res && res.status 可以变成 res?.status
安装 cnpm install --save-dev @babel/plugin-proposal-optional-chaining .babelrc { "presets": ...
基于Apollo3-Blue-MCU的智能手表方案源码解析
一方案简介 1.简介 Apollo3 Blue Wireless SoC是一款超低功耗无线mcu芯片,它的运行功耗降至6μA/ MHz以下.该器件采用ARM Cortex M4F内核,运行频率高达9 ...
matlab在mac下无写权限解决方法和思路
问题出在哪儿? 做音频算法很多年,使用matlab的历史也是十年多了,可是在mac下使用matlab倒是第一次,基本熟悉了之后,顺杆丝滑啊.要比在windows下好用多了,不过,中间遇到了一些问题 ...
epoll实现的简单服务器
#include "../wrap/wrap.h" #include <sys/epoll.h> #define SIZE 1024 #define FUCK prin ...
【Unity渲染】一文看懂！Unity通用渲染管线URP介绍
一.Unity通用渲染管线(URP) Unity 的渲染管线包含内置渲染管线.SRP.URP和HDRP.自从Unity2019.3开始,Unity将轻量级渲染管线修改为了通用渲染管线,这是一种快速.可 ...
记录--原生 canvas 如何实现大屏?
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助前言可视化大屏该如何做?有可能一天完成吗?废话不多说,直接看效果,线上 Demo 地址 lxfu1.github.io/large-sc ...

xml转voc数据集（含分享数据集）

xml转voc数据集（含分享数据集）的更多相关文章

随机推荐

热门专题