xml.etree.ElementTree模块为xml文件的提取和建立提供了简单有效的API。下文中使用ET来代表xml.etree.ElementTree模块。

XML是一种内在的分层的数据形式,展示这种数据最自然的方式就是树形结构。ET有两种类来实现这个目标——Elementree将整个XML文件构造成一棵树,Element代表书树一个节点。与整个文件的交互(从文件读或者写)一般在Elementtree层次完成,与一个简单的XML element以及它的sub-element交互一般在Element层次完成。

  • 解析XML

用下面的XML文件来完成后面的代码中对xml的提取

<?xml version = "1.0" ?>
<bounding_boxes>
<object id = "00">
<bndbox>
<xmin>76.7371</xmin>
<ymin>112.0698</ymin>
<xmax>93.5142</xmax>
<ymax>126.666</ymax>
</bndbox>
<name>ship</name>
</object> <object id = "01">
<bndbox>
<xmin>51.4033</xmin>
<ymin>179.954</ymin>
<xmax>62.1409</xmax>
<ymax>178.3398</ymax>
</bndbox>
<name>ship</name>
</object>
</bounding_boxes>

可以通过读取一个文件来导入数据:

import xml.etree.ElementTree as ET
tree = ET.pares("Annotations0001.xml")
root = tree.getroot()

也可以直接从一个字符串读入:

root = ET.fromstring(Annotations)

fromstring()直接将一个字符串从xml解析成树根的Element。

作为一个Elment,root有一个tag和一个字典属性:

>>>root.tag
'bounding_boxes'
>>>root.attrib
{}

它也有可以迭代的孩子节点:

for child in root:
print(child.tag,child.attrib) object {'id': ''}
object {'id': ''}

孩子是可以嵌套的,因此我们可以通过索引来访问特定的孩子:

>>>root[0][1].text
'ship'

注意:并不是所有的XML输入的element都是以解析树的element结束。现在,这个模块跳过了输入中所有的XML注释、处理指令和文件类型说明。然而,通过这个模块的API构造而不是通过解析XML文件构造的树可以包括注释和处理指令,这些会在生成XML输出中体现出来。一个文件类型的声明可以通过传递一个TreeBuilder实例给XMLParser构造函数来实现。

  • 非阻塞解析

在ET模块中的大多数解析函数都要求在返回结果之前一次性读入整个文件。使用XMLParser并且逐渐的填入数据是可能的,但是它是一个调用回调目标的push API,对于大多数需求这样很不方便并且层次很低。有时候在享受构造整个Element目标方便的同时,使用者只是想逐渐解析XML而不要阻塞操作。

完成这个功能最强大的工具就是XMLPullParser。它不要求阻塞式读入所有数据,而是通过调用XMLPullParser.feed()函数来逐渐填入数据。为了的到解析的XML element,可以调用XMLPullParser.read_events()。下面是例子:

>>>parser = ET.XMLPullParser(['start','end'])
>>>parser.feed("<book>python")
>>>list(parser.read_events())
[('start', <Element 'book' at 0x032FA6F0>)]
>>>parser.feed(" tutorial</book>")
>>>for event,elem in parser.read_events():
... print(event)
... print(elem.tag,"text=",elem.text)
...
end
book text= python tutorial
  • 找到感兴趣的element

Element有一些有用的方法来帮助用户递归迭代该节点的子树:

>>>for obj in root.iter('name'):
... print(obj.text)
...
ship
ship

Element.findall()可以找到所有该Element下所有的直接孩子。Element.find()特定标签下的第一个孩子,Element.text是指该element的文本。Element.get()的事element的属性。

for obj in root.findall("object"):
name = obj.find('name').text
print(name,obj.get("id")) ship 00
ship 01
  • 修改一个XML文件

ElemenrtTree提供了一个简单的构造XML文件并写入的方法。ElementTree.write()方法完成这个功能。

一旦一个Element object被创建,就可以直接修改它的域(比如Element.text),添加和修改属性(Element.set()方法),也可以添加孩子结点(Element.append())

>>>obj = root.find("object")
>>>obj.set("updated","yes")
>>>obj.attrib
{'id': '', 'updated': 'yes'}

也可以通过使用函数Element.remove()来移除element

>>>name = obj.find("name")
>>>obj.remove(name)
>>>tree.write("Annotations0001.xml")

移除之后XML文件变成如下这个样子:

bounding_boxes>
<object id="00" updated="yes">
<bndbox>
<xmin>76.7371</xmin>
<ymin>112.0698</ymin>
<xmax>93.5142</xmax>
<ymax>126.666</ymax>
</bndbox>
</object> <object id="01">
<bndbox>
<xmin>51.4033</xmin>
<ymin>179.954</ymin>
<xmax>62.1409</xmax>
<ymax>178.3398</ymax>
</bndbox>
<name>ship</name>
</object>
</bounding_boxes>
  • 创建XML文件

SubElement()函数提供了一个创建给定element的sub-element的简单方法:

>>>root = ET.Element("root")
>>>child1 = ET.SubElement(root,"child1")
>>>child2 = ET.SubElement(root,"child2")
>>>grandson = ET.SubElement(child2,"grandson")
>>>ET.dump(root)
<root><child1 /><child2><grandson /></child2></root>

参考文件:https://docs.python.org/3.5/library/xml.etree.elementtree.html

python 解析与生成xml的更多相关文章

  1. 使用Pull解析器生成XML文件和读取xml文件

    有些时候,我们需要生成一个XML文件,生成XML文件的方法有很多,如:可以只使用一个StringBuilder组拼XML内容,然后把内容写入到文件中:或者使用DOM API生成XML文件,或者也可以使 ...

  2. SAX解析和生成XML文档

    原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本人声明.否则将追究法律责任. 作者: 永恒の_☆ 地址: http://blog.csdn.net/chenghui031 ...

  3. python解析VOC的xml文件并转成自己需要的txt格式

    在进行神经网络训练的时候,自己标注的数据集往往会有数据量不够大以及代表性不强等问题,因此我们会采用开源数据集作为训练,开源数据集往往具有特定的格式,如果我们想将开源数据集为我们所用的话,就需要对其格式 ...

  4. maven中使用dom4j解析、生成XML的简易方法

    此片文章主要写一些关于如何在maven工程中使用dom4j来解析或生成XML的建议方法,实际可使用的写法不仅限于如下所写的样例代码.此处进攻快速入手和提供思路使用. 首先配置pom.xml中的依赖的包 ...

  5. 使用Pull解析器生成XML文件

    有些时候,我们需要生成一个XML文件,生成XML文件的方法有很多,如:可以只使用一个StringBuilder组拼XML内容,然后把内容写入到文件中:或者使用DOM API生成XML文件,或者也可以使 ...

  6. python xml文件解析 及生成xml文件

    #解析一个database的xml文件 """ <databaselist type="database config"> <dat ...

  7. Python:Dom生成XML文件(写XML)

    http://www.ourunix.org/post/327.html 在python中解析XML文件也有Dom和Sax两种方式,这里先介绍如何是使用Dom解析XML,这一篇文章是Dom生成XML文 ...

  8. python cookbook第三版学习笔记七:python解析csv,json,xml文件

    CSV文件读取: Csv文件格式如下:分别有2行三列. 访问代码如下: f=open(r'E:\py_prj\test.csv','rb') f_csv=csv.reader(f) for f in ...

  9. java 解析并生成 XML

    在 java 中使用 Dom4j 解析 XML 对 XML 文件的解析,通常使用的是 Dom4j 和 jdom 作为XML解析工具. 在此只介绍下 Dom4j 对 XML 文件的解析使用方法. 1. ...

随机推荐

  1. Jenkins参数化构建(二)之 Maven command line使用Jenkins参数

    安装Extened Choice Parameter插件 General模块选择‘参数化构建过程’   3. maven command line中使用 clean test -DsuiteXmlFi ...

  2. [luogu]P1852跳跳棋

    题目重点是每次不能跳过两个棋子 即对于每一个棋子的状态(a,b,c) (a<b<c) 最多有两种移动的方式 1.中间往两边跳 (a,b,c)-->(2b-a,a,c)或(a,c,2b ...

  3. Servlet模板,一个供新手参考的模板

    由于这学期老师的进度是刚开始教JavaSE部分,而我的进度比较快,所以买了3本javaee的书,我根据自己的基础,选择了合适的开发实践,另外两本书都和框架相关,我自认为我的web基础还不是很牢固,所以 ...

  4. 剖析Hadoop和Spark的Shuffle过程差异

    一.前言 对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交.并.差.聚合.排序等过程.而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么 ...

  5. 学习笔记30—Windows那些事

    1.win10编程窗口:powerShell 2.Win7设置工具栏折叠:我们只需要在底部任务栏空白位置点击鼠标右键,然后选择“属性”,在弹出额属性对话框中,将“任务栏按钮”后面的“始终合并.隐藏标签 ...

  6. yum update软件包冲突

    因升级系统过程中断,重新进入系统继续升级出现如下问题(内容太多,只粘部分内容) # yum update 正在解决依赖关系 --> 正在检查事务 ---> 软件包 alsa-firmwar ...

  7. word空白页怎么删除

    最简单的,直接按键盘上的BackSpace或者Delete键,来进行删除.  分页符过到.打开“编辑”-->替换-->高级-->特殊字符-->手工分页符-->“全部替换” ...

  8. 两排序数组的中位数 Median of Two Sorted Arrays

    2018-11-18 23:33:28 问题描述: 问题求解: 这个问题是一个比较有难度的可以使用二分搜索法求解的问题,如果采用朴素的解法进行merge再找中位数的话,其时间复杂度为O(n1 + n2 ...

  9. OnSen UI结合AngularJs打造”美团"APP底部导航栏 --Hybrid App

    1.页面效果图:(点击底部导航按钮,可切换到不同的页面) 演示地址:http://www.nxl123.cn/bokeyuan/2018080301/meiTuanDemo/ 2.项目目录结构 3.核 ...

  10. 将内网ip映射到外网域名

     一.应用场景 1.在本地测试微信支付回调 二.如何使用natapp实现内网穿透 1.第一步注册账号并进行实名制认证 natapp网站地址 https://natapp.cn/ 2.第二步申请免费隧道 ...