1. XML简介

  XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物,既具有SGML的核心特征,又有着HTML的简单特性,还具有明确和结构良好等许多新的特性。

  test.XML文件 

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

  XML详细介绍可以参考:http://www.w3school.com.cn/xmldom/dom_nodetype.asp

2. XML文件解析

  python解析XML常见的有三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合;二是xml.sax.*模块,它是SAX API的实现,这个模块牺牲了便捷性来换取速度和内存占用,SAX是一个基于事件的API,这就意味着它可以“在空中”处理庞大数量的的文档,不用完全加载进内存;三是xml.etree.ElementTree模块(简称 ET),它提供了轻量级的Python式的API,相对于DOM来说ET 快了很多,而且有很多令人愉悦的API可以使用,相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式,没有必要加载整个文档到内存,ET的性能的平均值和SAX差不多,但是API的效率更高一点而且使用起来很方便。

2.1 xml.dom.*

  文件对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。

  a. 获得子标签   

  b. 区分相同标签名的标签

  c. 获取标签属性值

  d. 获取标签对之间的数据

#coding=utf-8

#通过minidom解析xml文件
import xml.dom.minidom as xmldom
import os
'''
XML文件读取
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>dasdas
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog> ''' xmlfilepath = os.path.abspath("test.xml")
print ("xml文件路径:", xmlfilepath) # 得到文档对象
domobj = xmldom.parse(xmlfilepath)
print("xmldom.parse:", type(domobj))
# 得到元素对象
elementobj = domobj.documentElement
print ("domobj.documentElement:", type(elementobj)) #获得子标签
subElementObj = elementobj.getElementsByTagName("login")
print ("getElementsByTagName:", type(subElementObj)) print (len(subElementObj))
# 获得标签属性值
print (subElementObj[0].getAttribute("username"))
print (subElementObj[0].getAttribute("passwd")) #区分相同标签名的标签
subElementObj1 = elementobj.getElementsByTagName("caption")
for i in range(len(subElementObj1)):
print ("subElementObj1[i]:", type(subElementObj1[i]))
print (subElementObj1[i].firstChild.data) #显示标签对之间的数据

  输出结果:

>>> D:\Pystu>python xml_instance.py
>>> xml文件路径: D:\Pystu\test.xml
>>> xmldom.parse: <class 'xml.dom.minidom.Document'>
>>> domobj.documentElement: <class 'xml.dom.minidom.Element'>
>>> getElementsByTagName: <class 'xml.dom.minicompat.NodeList'>
>>> username: pytest
>>> passwd: 123456
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Python
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> 测试
>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>
>>> Zope

2.2 xml.etree.ElementTree

  ElementTree生来就是为了处理XML,它在Python标准库中有两种实现:一种是纯Python实现的,如xml.etree.ElementTree,另一种是速度快一点的xml.etree.cElementTree。注意:尽量使用C语言实现的那种,因为它速度更快,而且消耗的内存更少。

  a. 遍历根节点的下一层   

  b. 下标访问各个标签、属性、文本

  c. 查找root下的指定标签

  d. 遍历XML文件

  e. 修改XML文件

#coding=utf-8

#通过解析xml文件
'''
try:
import xml.etree.CElementTree as ET
except:
import xml.etree.ElementTree as ET 从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度
'''
import xml.etree.ElementTree as ET
import os
import sys
'''
XML文件读取
<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>dasdas
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>
''' #遍历xml文件
def traverseXml(element):
#print (len(element))
if len(element)>0:
for child in element:
print (child.tag, "----", child.attrib)
traverseXml(child)
#else:
#print (element.tag, "----", element.attrib) if __name__ == "__main__":
xmlFilePath = os.path.abspath("test.xml")
print(xmlFilePath)
try:
tree = ET.parse(xmlFilePath)
print ("tree type:", type(tree)) # 获得根节点
root = tree.getroot()
except Exception as e: #捕获除与程序退出sys.exit()相关之外的所有异常
print ("parse test.xml fail!")
sys.exit()
print ("root type:", type(root))
print (root.tag, "----", root.attrib) #遍历root的下一层
for child in root:
print ("遍历root的下一层", child.tag, "----", child.attrib) #使用下标访问
print (root[0].text)
print (root[1][1][0].text) print (20 * "*")
#遍历xml文件
traverseXml(root)
print (20 * "*") #根据标签名查找root下的所有标签
captionList = root.findall("item") #在当前指定目录下遍历
print (len(captionList))
for caption in captionList:
print (caption.tag, "----", caption.attrib, "----", caption.text) #修改xml文件,将passwd修改为999999
login = root.find("login")
passwdValue = login.get("passwd")
print ("not modify passwd:", passwdValue)
login.set("passwd", "") #修改,若修改text则表示为login.text
print ("modify passwd:", login.get("passwd"))

  输出结果:

>>> D:\Pystu\test.xml
>>> tree type: <class 'xml.etree.ElementTree.ElementTree'>
>>> root type: <class 'xml.etree.ElementTree.Element'>
>>> catalog ---- {}
>>> 遍历root的下一层 maxid ---- {}
>>> 遍历root的下一层 login ---- {'username': 'pytest', 'passwd': ''}
>>> 遍历root的下一层 item ---- {'id': ''}
>>> 4
>>> 测试
>>> ********************
>>> maxid ---- {}
>>> login ---- {'username': 'pytest', 'passwd': ''}
>>> caption ---- {}
>>> item ---- {'id': ''}
>>> caption ---- {}
>>> item ---- {'id': ''}
>>> caption ---- {}
>>> ********************
>>> 1
>>> item ---- {'id': ''} ---- >>> not modify passwd: 123456
>>> modify passwd: 999999

  附:

#coding=utf-8

'''
XML解析类
@功能-结点的增删改查
'''
import xml.etree.ElementTree as ET
import sys
import os.path class XmlParse:
def __init__(self, file_path):
self.tree = None
self.root = None
self.xml_file_path = file_path def ReadXml(self):
try:
print("xmlfile:", self.xml_file_path)
self.tree = ET.parse(self.xml_file_path)
self.root = self.tree.getroot()
except Exception as e:
print ("parse xml faild!")
sys.exit()
else:
print ("parse xml success!")
finally:
return self.tree def CreateNode(self, tag, attrib, text):
element = ET.Element(tag, attrib)
element.text = text
print ("tag:%s;attrib:%s;text:%s" %(tag, attrib, text))
return element def AddNode(self, Parent, tag, attrib, text):
element = self.CreateNode(tag, attrib, text)
if Parent:
Parent.append(element)
el = self.root.find("lizhi")
print (el.tag, "----", el.attrib, "----", el.text)
else:
print ("parent is none") def WriteXml(self, destfile):
dest_xml_file = os.path.abspath(destfile)
self.tree.write(dest_xml_file, encoding="utf-8",xml_declaration=True) if __name__ == "__main__":
xml_file = os.path.abspath("test.xml")
parse = XmlParse(xml_file)
tree = parse.ReadXml()
root = tree.getroot()
print (root)
parse.AddNode(root, "Python", {"age":"", "hello":"world"}, "YES") parse.WriteXml("testtest.xml")

2.3 xml.sax.*

  SAX是一种基于事件驱动的API,利用SAX解析XML牵涉到两个部分:解析器和事件处理器。

  解析器负责读取XML文档,并向事件处理器发送事件,如元素开始跟元素结束事件

  事件处理器则负责对事件作出相应,对传递的XML数据进行处理

  常用场景:

    (1)对大型文件进行处理

    (2)只需文件的部分内容,或只需从文件中得到特定信息

    (3)想建立自己的对象模型

  基于事件驱动的SAX解析XML内容的知识后续补充!

Python实现XML文件解析的更多相关文章

  1. Python3将xml文件解析为Python对象

    一.说明 从最开始写javascript开始,我就很烦感使用getElementById()等函数来获取节点的方法,获取了一个节点要访问其子孙节点要么child半天要么就再来一个getElementB ...

  2. python 解析XML python模块xml.dom解析xml实例代码

    分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...

  3. python操作xml文件

    一.什么是xml? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. abc.xml <?xml version="1.0&q ...

  4. XML文件解析之JDOM解析

    1.JDOM介绍 JDOM的官方网站是http://www.jdom.org/,JDOM解析用到的jar包可以在http://www.jdom.org/dist/binary/中下载,最新的JDOM2 ...

  5. 通过正则表达式实现简单xml文件解析

    这是我通过正则表达式实现的xml文件解析工具,有些XHTML文件中包含特殊符号,暂时还无法正常使用. 设计思路:常见的xml文件都是单根树结构,工具的目的是通过递归的方式将整个文档树装载进一个Node ...

  6. 八、Android学习第七天——XML文件解析方法(转)

    (转自:http://wenku.baidu.com/view/af39b3164431b90d6c85c72f.html) 八.Android学习第七天——XML文件解析方法 XML文件:exten ...

  7. android基础知识13:AndroidManifest.xml文件解析

    注:本文转载于:http://blog.csdn.net/xianming01/article/details/7526987 AndroidManifest.xml文件解析. 1.重要性 Andro ...

  8. Android之AndroidManifest.xml文件解析

    转自:Android学习笔记之AndroidManifest.xml文件解析 一.关于AndroidManifest.xml AndroidManifest.xml 是每个android程序中必须的文 ...

  9. 9.XML文件解析

    一.XML简介 XML(EXtensible Markup Language),可扩展标记语言 特点:XML与操作系统.编程语言的开发平台无关 实现不同系统之间的数据交换 作用:数据交互 配置应用程序 ...

随机推荐

  1. HTML基础知识(表格、表单)

    6.表格 l  概念:表格一定具有行和列 注:使用<thead><tbody><tfoot>,使浏览器能独立于表格表头和表格页脚的表格主体滚动.当包含多个页面的表格 ...

  2. Array对象的方法详情

    题外话:从事前端开发有很长一段时间了,一直在不断的扩充各种框架的学习,总觉得要学的东西好多,但是技能并没有得到很大的提升,后发现自己一味去追求的它的广度,并没用去深究其深度,所以决定打算从零开始,从最 ...

  3. TCP/IP和UDP之间的区别(转载)

    在分析两者之间的区别之前,我们先搞清楚这两者的关系, TCP/IP协议簇  是一种网络控制协议,简单点说就是一种网络协议,我们网络中的计算机就是通过这套协议簇来进行数据通信的.这套协议簇里面包含了很多 ...

  4. backbone 要点知识整理

    1.backbone 是个mvc的库,官方文档说它是个库,而不是个框架.库和框架的区别就是,库只是个工具,方便你的项目应用,不会改变你的项目结构,而框架会有一套自己的机制,项目需要遵循框架的设计来实现 ...

  5. VueI18n插件的简单应用于国际化

    作为一个前端小白,刚刚接触学习Vue.js框架结合Element-ui组件开发项目.由于最近需要实现国际化功能,在看element-ui的开发文档时,只有简单的引入没有应用实例,对于我这种小白不能ge ...

  6. 使用python写一个简单的C段扫

    纠结C段查询N久..刚刚拿骚棒FD去抓御剑的包,发现emmm...申请了必应的Key 然后去拿必应API查.这里疼[心]原本也想去弄的.但是人懒. 然后就没有然后了. 代码: 生成IP段的脚本图1 # ...

  7. cs231n spring 2017 lecture2 Image Classification 听课笔记

    1. 相比于传统的人工提取特征(边.角等),深度学习是一种Data-Driven Approach.深度学习有统一的框架,喂不同的数据集,可以训练识别不同的物体.而人工提取特征的方式很脆弱,换一个物体 ...

  8. 2017ecjtu-summer training #6 Gym 100952D

    D. Time to go back time limit per test 1 second memory limit per test 256 megabytes input standard i ...

  9. enum与typedef enum

    enum与typedef enum的用法 在程序中,可能需要为某些整数定义一个别名,我们可以利用预处理指令#define来完成这项工作,您的代码可能是: #define MON  1#define T ...

  10. 使用vue-axios请求geoJson数据报错的问题

    最近的项目用到了echarts一个带有散点地图的图表,按照正常jquery写法应该使用ajax请求geojson的数据动态去切换地图,就像下面这样 $.get('Js/map/' + cityData ...