1. XML简介

　　XML（eXtensible Markup Language）指可扩展标记语言，被设计用来传输和存储数据，已经日趋成为当前许多新生技术的核心，在不同的领域都有着不同的应用。它是web发展到一定阶段的必然产物，既具有SGML的核心特征，又有着HTML的简单特性，还具有明确和结构良好等许多新的特性。

　　test.XML文件　

<?xml version="1.0" encoding="utf-8"?>

<catalog>

    <maxid>4</maxid>

    <login username="pytest" passwd='123456'>

        <caption>Python</caption>

        <item id="4">

            <caption>测试</caption>

        </item>

    </login>

    <item id="2">

        <caption>Zope</caption>

    </item>

</catalog>

　　XML详细介绍可以参考：http://www.w3school.com.cn/xmldom/dom_nodetype.asp

2. XML文件解析

　　python解析XML常见的有三种方法：一是xml.dom.*模块，它是W3C DOM API的实现，若需要处理DOM API则该模块很适合；二是xml.sax.*模块，它是SAX API的实现，这个模块牺牲了便捷性来换取速度和内存占用，SAX是一个基于事件的API，这就意味着它可以“在空中”处理庞大数量的的文档，不用完全加载进内存；三是xml.etree.ElementTree模块（简称 ET），它提供了轻量级的Python式的API，相对于DOM来说ET 快了很多，而且有很多令人愉悦的API可以使用，相对于SAX来说ET的ET.iterparse也提供了 “在空中” 的处理方式，没有必要加载整个文档到内存，ET的性能的平均值和SAX差不多，但是API的效率更高一点而且使用起来很方便。

2.1 xml.dom.*

　　文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件。

　　a. 获得子标签　　　

　　b. 区分相同标签名的标签

　　c. 获取标签属性值

　　d. 获取标签对之间的数据

#coding=utf-8

#通过minidom解析xml文件

import xml.dom.minidom as xmldom

import os

'''

XML文件读取

<?xml version="1.0" encoding="utf-8"?>

<catalog>

    <maxid>4</maxid>

    <login username="pytest" passwd='123456'>dasdas

        <caption>Python</caption>

        <item id="4">

            <caption>测试</caption>

        </item>

    </login>

    <item id="2">

        <caption>Zope</caption>

    </item>

</catalog>

'''

xmlfilepath = os.path.abspath("test.xml")

print ("xml文件路径：", xmlfilepath)

# 得到文档对象

domobj = xmldom.parse(xmlfilepath)

print("xmldom.parse:", type(domobj))

# 得到元素对象

elementobj = domobj.documentElement

print ("domobj.documentElement:", type(elementobj))

#获得子标签

subElementObj = elementobj.getElementsByTagName("login")

print ("getElementsByTagName:", type(subElementObj))

print (len(subElementObj))

# 获得标签属性值

print (subElementObj[0].getAttribute("username"))

print (subElementObj[0].getAttribute("passwd"))

#区分相同标签名的标签

subElementObj1 = elementobj.getElementsByTagName("caption")

for i in range(len(subElementObj1)):

    print ("subElementObj1[i]:", type(subElementObj1[i]))

    print (subElementObj1[i].firstChild.data)  #显示标签对之间的数据

　　输出结果：

>>> D:\Pystu>python xml_instance.py

>>> xml文件路径： D:\Pystu\test.xml

>>> xmldom.parse: <class 'xml.dom.minidom.Document'>

>>> domobj.documentElement: <class 'xml.dom.minidom.Element'>

>>> getElementsByTagName: <class 'xml.dom.minicompat.NodeList'>

>>> username: pytest

>>> passwd: 123456

>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>

>>> Python

>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>

>>> 测试

>>> subElementObj1[i]: <class 'xml.dom.minidom.Element'>

>>> Zope

2.2 xml.etree.ElementTree

　　ElementTree生来就是为了处理XML，它在Python标准库中有两种实现：一种是纯Python实现的，如xml.etree.ElementTree，另一种是速度快一点的xml.etree.cElementTree。注意：尽量使用C语言实现的那种，因为它速度更快，而且消耗的内存更少。

　　a. 遍历根节点的下一层　　　

　　b. 下标访问各个标签、属性、文本

　　c. 查找root下的指定标签

　　d. 遍历XML文件

　　e. 修改XML文件

#coding=utf-8

#通过解析xml文件

'''

try:

    import xml.etree.CElementTree as ET

except:

    import xml.etree.ElementTree as ET

从Python3.3开始ElementTree模块会自动寻找可用的C库来加快速度

'''

import xml.etree.ElementTree as ET

import os

import sys

'''

XML文件读取

<?xml version="1.0" encoding="utf-8"?>

<catalog>

    <maxid>4</maxid>

    <login username="pytest" passwd='123456'>dasdas

        <caption>Python</caption>

        <item id="4">

            <caption>测试</caption>

        </item>

    </login>

    <item id="2">

        <caption>Zope</caption>

    </item>

</catalog>

'''

#遍历xml文件

def traverseXml(element):

    #print (len(element))

    if len(element)>0:

        for child in element:

            print (child.tag, "----", child.attrib)

            traverseXml(child)

    #else:

        #print (element.tag, "----", element.attrib)

if __name__ == "__main__":

    xmlFilePath = os.path.abspath("test.xml")

    print(xmlFilePath)

    try:

        tree = ET.parse(xmlFilePath)

        print ("tree type:", type(tree))

        # 获得根节点

        root = tree.getroot()

    except Exception as e:  #捕获除与程序退出sys.exit()相关之外的所有异常

        print ("parse test.xml fail!")

        sys.exit()

    print ("root type:", type(root))

    print (root.tag, "----", root.attrib)

    #遍历root的下一层

    for child in root:

        print ("遍历root的下一层", child.tag, "----", child.attrib)

    #使用下标访问

    print (root[0].text)

    print (root[1][1][0].text)

    print (20 * "*")

    #遍历xml文件

    traverseXml(root)

    print (20 * "*")

    #根据标签名查找root下的所有标签

    captionList = root.findall("item")  #在当前指定目录下遍历

    print (len(captionList))

    for caption in captionList:

        print (caption.tag, "----", caption.attrib, "----", caption.text)

    #修改xml文件，将passwd修改为999999

    login = root.find("login")

    passwdValue = login.get("passwd")

    print ("not modify passwd:", passwdValue)

    login.set("passwd", "")   #修改，若修改text则表示为login.text

    print ("modify passwd:", login.get("passwd"))

　　输出结果：

>>> D:\Pystu\test.xml

>>> tree type: <class 'xml.etree.ElementTree.ElementTree'>

>>> root type: <class 'xml.etree.ElementTree.Element'>

>>> catalog ---- {}

>>> 遍历root的下一层 maxid ---- {}

>>> 遍历root的下一层 login ---- {'username': 'pytest', 'passwd': ''}

>>> 遍历root的下一层 item ---- {'id': ''}

>>> 4

>>> 测试

>>> ********************

>>> maxid ---- {}

>>> login ---- {'username': 'pytest', 'passwd': ''}

>>> caption ---- {}

>>> item ---- {'id': ''}

>>> caption ---- {}

>>> item ---- {'id': ''}

>>> caption ---- {}

>>> ********************

>>> 1

>>> item ---- {'id': ''} ----

>>> not modify passwd: 123456

>>> modify passwd: 999999

　　附：

#coding=utf-8

'''

    XML解析类

    @功能-结点的增删改查

'''

import xml.etree.ElementTree as ET

import sys

import os.path

class XmlParse:

    def __init__(self, file_path):

        self.tree = None

        self.root = None

        self.xml_file_path = file_path

    def ReadXml(self):

        try:

            print("xmlfile:", self.xml_file_path)

            self.tree = ET.parse(self.xml_file_path)

            self.root = self.tree.getroot()

        except Exception as e:

            print ("parse xml faild!")

            sys.exit()

        else:

            print ("parse xml success!")

        finally:

            return self.tree

    def CreateNode(self, tag, attrib, text):

        element = ET.Element(tag, attrib)

        element.text = text

        print ("tag:%s;attrib:%s;text:%s" %(tag, attrib, text))

        return element

    def AddNode(self, Parent, tag, attrib, text):

        element = self.CreateNode(tag, attrib, text)

        if Parent:

            Parent.append(element)

            el = self.root.find("lizhi")

            print (el.tag, "----", el.attrib, "----", el.text)

        else:

            print ("parent is none")

    def WriteXml(self, destfile):

        dest_xml_file = os.path.abspath(destfile)

        self.tree.write(dest_xml_file, encoding="utf-8",xml_declaration=True)

if __name__ == "__main__":

    xml_file = os.path.abspath("test.xml")

    parse = XmlParse(xml_file)

    tree = parse.ReadXml()

    root = tree.getroot()

    print (root)

    parse.AddNode(root, "Python", {"age":"", "hello":"world"}, "YES")

    parse.WriteXml("testtest.xml")

2.3 xml.sax.*

　　SAX是一种基于事件驱动的API，利用SAX解析XML牵涉到两个部分：解析器和事件处理器。

　　解析器负责读取XML文档，并向事件处理器发送事件，如元素开始跟元素结束事件

　　事件处理器则负责对事件作出相应，对传递的XML数据进行处理

　　常用场景：

　　　　（1）对大型文件进行处理

　　　　（2）只需文件的部分内容，或只需从文件中得到特定信息

　　　　（3）想建立自己的对象模型

　　基于事件驱动的SAX解析XML内容的知识后续补充！

Python实现XML文件解析的更多相关文章

Python3将xml文件解析为Python对象
一.说明从最开始写javascript开始,我就很烦感使用getElementById()等函数来获取节点的方法,获取了一个节点要访问其子孙节点要么child半天要么就再来一个getElementB ...
python 解析XML python模块xml.dom解析xml实例代码
分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...
python操作xml文件
一.什么是xml? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. abc.xml <?xml version="1.0&q ...
XML文件解析之JDOM解析
1.JDOM介绍 JDOM的官方网站是http://www.jdom.org/,JDOM解析用到的jar包可以在http://www.jdom.org/dist/binary/中下载,最新的JDOM2 ...
通过正则表达式实现简单xml文件解析
这是我通过正则表达式实现的xml文件解析工具,有些XHTML文件中包含特殊符号,暂时还无法正常使用. 设计思路:常见的xml文件都是单根树结构,工具的目的是通过递归的方式将整个文档树装载进一个Node ...
八、Android学习第七天——XML文件解析方法（转）
(转自:http://wenku.baidu.com/view/af39b3164431b90d6c85c72f.html) 八.Android学习第七天——XML文件解析方法 XML文件:exten ...
android基础知识13：AndroidManifest.xml文件解析
注:本文转载于:http://blog.csdn.net/xianming01/article/details/7526987 AndroidManifest.xml文件解析. 1.重要性 Andro ...
Android之AndroidManifest.xml文件解析
转自:Android学习笔记之AndroidManifest.xml文件解析一.关于AndroidManifest.xml AndroidManifest.xml 是每个android程序中必须的文 ...
9.XML文件解析
一.XML简介 XML(EXtensible Markup Language),可扩展标记语言特点:XML与操作系统.编程语言的开发平台无关实现不同系统之间的数据交换作用:数据交互配置应用程序 ...

随机推荐

【Keras】基于SegNet和U-Net的遥感图像语义分割
上两个月参加了个比赛,做的是对遥感高清图像做语义分割,美其名曰"天空之眼".这两周数据挖掘课期末project我们组选的课题也是遥感图像的语义分割,所以刚好又把前段时间做的成果重新 ...
GO开发[四]：golang函数
函数 1.声明语法:func 函数名 (参数列表) [(返回值列表)] {} 2.golang函数特点: a. 不支持重载,一个包不能有两个名字一样的函数 b. 函数是一等公民,函数也是一种类型,一个 ...
微信小程序初使心得【微信小程序快速入门】
摘要: 2016年推出微信小程序,时至今日,历经几个版本的更新,已形成了相对实用和稳定的服务平台.本文简单的介绍了微信小程序的入门用法,今后会继续关注和实践. 2016年推出微信小程序,时至今日,历经 ...
[学习OpenCV攻略][016][RedHat下安装OpenCV]
安装环境操作系统: Red Hat Enterprise Linux Server 6.3 相关软件: ffmpeg-0.8.15.tar.bz2.cmake-3.5.1.tar.gz.OpenCV ...
免费V P N获取方式
给需要加速器链接国外网站的朋友, 打开网址:http://miaoaff.com/reg.php?id=204250: 用一个邮箱注册,就会得到一个免费的vpn软件账号(包含300M流量时间永久): ...
MVC编程实例----简易电子商务网站（一）
一.总体概览.规划本文将会创建一个基本的电子商务网站.由于电子商务网站的基本功能都是差不多的,此处省去了需求分析等工作,直接总结出结论.分为4个基本功能: 商品浏览会员功能购物车订单结账其中 ...
TP框架自带的正则验证的规则
thinkphp框架里面自带有很多自动验证的规则,下面是框架自带的正则验证的规则,官方的说明文档里面没有这么多,所以记下来,以备使用. view sourceprint? 01 static $reg ...
微信公众平台宣布增加接口IP白名单提高安全性
微信公众平台目前已经发布通知在平台接口调用上为了提高安全性需要添加IP白名单并仅允许白名单IP调用. 目前微信公众平台面向开发者主要提供的开发者ID和开发者密钥,在调用时ID和密钥通过检验即可进行调用 ...
什么是A记录域名
A (Address) 记录是用来指定主机名(或域名)对应的IP地址记录.用户可以将该域名下的网站服务器指向到自己的web server,FTP server等上面.同时也可以设置域名的子域名. 通俗 ...
php的底层原理
PHP说简单,但是要精通也不是一件简单的事.我们除了会使用之外,还得知道它底层的工作原理. PHP是一种适用于web开发的动态语言.具体点说,就是一个用C语言实现包含大量组件的软件框架.更狭义点看,可 ...

Python实现XML文件解析

1. XML简介

2. XML文件解析

2.1 xml.dom.*

a. 获得子标签

b. 区分相同标签名的标签

c. 获取标签属性值

d. 获取标签对之间的数据

输出结果：

2.2 xml.etree.ElementTree

a. 遍历根节点的下一层

b. 下标访问各个标签、属性、文本

c. 查找root下的指定标签

d. 遍历XML文件

e. 修改XML文件

输出结果：

附：

2.3 xml.sax.*

Python实现XML文件解析的更多相关文章

随机推荐

热门专题

　　a. 获得子标签　　　

　　b. 区分相同标签名的标签

　　c. 获取标签属性值

　　d. 获取标签对之间的数据

　　输出结果：

　　a. 遍历根节点的下一层　　　

　　b. 下标访问各个标签、属性、文本

　　c. 查找root下的指定标签

　　d. 遍历XML文件

　　e. 修改XML文件

　　输出结果：

　　附：