Python生成PASCAL VOC格式的xml标注文件

PASCAL VOC数据集的标注文件是xml格式的。对于py-faster-rcnn，通常以下示例的字段是合适的：

<annotation>

  <folder>GTSDB</folder>

  <filename>000001.jpg</filename>

  <size>

    <width>500</width>

    <height>375</height>

    <depth>3</depth>

  </size>

  <object>

    <name>mouse</name>

    <difficult>0</difficult>

    <bndbox>

      <xmin>99</xmin>

      <ymin>358</ymin>

      <xmax>135</xmax>

      <ymax>375</ymax>

    </bndbox>

  </object>

</annotation>

怎样从csv或者txt格式的文件，读取bbox信息，生成xml格式的annotation文件呢？直接逐行写文件肯定可以，但是以后改起来并不太方便，\t和空格的替换也不太方便。

xml.etree.ElementTree这个包似乎挺好用的，解析和生成xml都可以。但是会产生<?xml version="1.0" ?>这样一行头部版本信息。我们不需要这个信息。使用lxml包替代xml，可以去掉它。

下面给出了一个例子。

安装依赖项

sudo pip install lxml

生成xml示例代码

#!/usr/bin/env python

# coding:utf-8

#from xml.etree.ElementTree import Element, SubElement, tostring

from lxml.etree import Element, SubElement, tostring

import pprint

from xml.dom.minidom import parseString

node_root = Element('annotation')

node_folder = SubElement(node_root, 'folder')

node_folder.text = 'GTSDB'

node_filename = SubElement(node_root, 'filename')

node_filename.text = '000001.jpg'

node_size = SubElement(node_root, 'size')

node_width = SubElement(node_size, 'width')

node_width.text = '500'

node_height = SubElement(node_size, 'height')

node_height.text = '375'

node_depth = SubElement(node_size, 'depth')

node_depth.text = '3'

node_object = SubElement(node_root, 'object')

node_name = SubElement(node_object, 'name')

node_name.text = 'mouse'

node_difficult = SubElement(node_object, 'difficult')

node_difficult.text = '0'

node_bndbox = SubElement(node_object, 'bndbox')

node_xmin = SubElement(node_bndbox, 'xmin')

node_xmin.text = '99'

node_ymin = SubElement(node_bndbox, 'ymin')

node_ymin.text = '358'

node_xmax = SubElement(node_bndbox, 'xmax')

node_xmax.text = '135'

node_ymax = SubElement(node_bndbox, 'ymax')

node_ymax.text = '375'

xml = tostring(node_root, pretty_print=True)  #格式化显示，该换行的换行

dom = parseString(xml)

print xml

用lxml库解析VOC2007的xml

from lxml import etree

class BndBox(object):

    def __init__(self, x1=0, y1=0, x2=0, y2=0, cls=None):

        self.x1 = x1

        self.y1 = y1

        self.x2 = x2

        self.y2 = y2

        self.cls_name = cls # class name

def test_parsing(xml_pth):

    xml_desc = etree.parse(xml_pth)

    box = BndBox()

    for obj in xml_desc.xpath('//object'):

        for item in obj.getchildren():

            if (item.tag=='name'):

                box.cls_name = item.text

            elif (item.tag=='bndbox'):

                coords = [int(float(_.text)) for _ in item.getchildren()]

                box.x1, box.y1, box.x2, box.y2 = coords

                print(box.cls_name, box.x1, box.y1, box.x2, box.y2)

if __name__ == '__main__':

    #draw_labels('datasetTraffic')

    test_parsing('H:/zz_dataset/datasetTraffic/Annotations/2012_004317.xml')

Python生成PASCAL VOC格式的xml标注文件的更多相关文章

eclipse或adt-bundle创建的android项目没有自动生成MainActivity.java和activity_main.xml等文件解决办法
以前我电脑一直以来都是用的eclipse3.7来开发android项目的,创建android项目也能正常生成MainActivity.java和activity_main.xml等文件.后来不知道什么 ...
用python生成一个导出数据库的bat脚本文件
# 环境: python3.x def getExportDbSql(db, index): # 获取导出一个数据库实例的sql语句 sql = 'mysqldump -u%s -p%s -h%s - ...
用python生成你想要的任意大小文件
在测试的日常工作中,我们经常会需要测试上传文件的边界值.今天分享一段30行的简单代码,可以生成任意大小的文件,方便测试. file_size=input("请输入想要生成文件的大小:(单位M ...
用python将MSCOCO和Caltech行人检测数据集转化成VOC格式
代码:转换用的代码放在这里之前用Tensorflow提供的object detection API可以很方便的进行fine-tuning实现所需的特定物体检测模型(看这里).那么现在的主要问题就是数 ...
训练自己数据-xml文件转voc格式
首先我们有一堆xml文件笔者是将mask-rcnn得到的json标注文件转为xml的批量json转xml方法:https://www.cnblogs.com/bob-jianfeng/p/1112 ...
【Detection】物体识别-制作PASCAL VOC数据集
PASCAL VOC数据集 PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集,从2005年到2012年每年都会举行一场图像识别challenge 默认为20类物体 1 数据集结构 ...
MyBatis 逆向工程——根据数据表自动生成model、xml映射文件、mapper接口
MyBatis Generator(MBG)的使用 MBG可以根据数据表生成对应的model.xml映射文件.mapper接口,只是简单的生成,还需要根据需求修改. 1.下载jar包 https:// ...
如何使用python生成xml
最近要用python生成一个xml格式的文件.因为有一些内容是中文,原来的xml文件中使用了CDATA 的部分. 而之前的python程序所用的库中没有创建这个区域的方法.无奈研究了大半天. 最后用 ...
python 将png图片格式转换生成gif动画
先看知乎上面的一个连接用Python写过哪些[脑洞大开]的小工具? https://www.zhihu.com/question/33646570/answer/157806339 这个哥们通过爬气 ...

随机推荐

linux CPU动态调频【转】
转自:https://www.xuebuyuan.com/2185926.html 针对sep4020的linux低功耗研究也有一段时间了,基本把低功耗的实现方式想清楚了(主要分成机制和策略),这段时 ...
MySQL主从1205报错【转】
主从报错1205 Slave SQL thread retried transaction 10 time(s) in vain, giving up. Consider raising the va ...
boost::asio实现一个echo服务器
以前使用ACE实现Server框架,但是觉得太笨重,决定采用boost.asio来写服务器程序: 1.服务器构建在linux上面:当然也可以在windows下运行 2.io部分采用非阻塞模式.业务逻辑 ...
xclip for windows
下载源码和可执行文件 xclip.7z // The MIT License (MIT) // Copyright (c) 2014 Rapptz // Permission is hereby gr ...
设置Vmware中Kali_linux 共享文件夹
kali_linux_2018.1 安装 Vmware-Tools 创建与 windows 的共享文件夹 vmware 设置共享目录安装 Vmware-Tools root@kali:~# apt- ...
Python Redis pipeline操作
Redis是建立在TCP协议基础上的CS架构,客户端client对redis server采取请求响应的方式交互. 一般来说客户端从提交请求到得到服务器相应,需要传送两个tcp报文. 设想这样的一个场 ...
PHP--php时间差8个小时的问题
自PHP5.0开始,用PHP获取系统时间时,时间比当前时间少8个小时.原因是PHP.ini中没有设置timezone时,PHP是使用的UTC时间,所以在中国时间要少8小时. 解决办法: 1.在PHP. ...
【原创】运维基础之Docker（5）docker部署airflow
部署方式:docker+airflow+mysql+LocalExecutor 使用airflow的docker镜像 https://hub.docker.com/r/puckel/docker-ai ...
【原创】运维基础之Ansible（2）离线安装
1 在一个能访问远程repo的服务器上执行,下载ansible及相关依赖的rpm包 # mkdir ansible# yum install --downloadonly --downloaddir= ...
url分发（二级分发）
from django.shortcuts import HttpResponsedef test(request): return HttpResponse('test') from django. ...

Python生成PASCAL VOC格式的xml标注文件

Python生成PASCAL VOC格式的xml标注文件

Python生成PASCAL VOC格式的xml标注文件的更多相关文章

随机推荐

热门专题