[转]Python存取XML方法简介

转自：http://www.cnblogs.com/salomon/archive/2012/05/28/2518648.html

目前而言，Python 3.2存取XML有以下四种方法：
　　1.Expat
　　2.DOM
　　3.SAX
　　4.ElementTree

以以下xml作为讨论依据

<?xml version="1.0" encoding="utf-8"?>

<Schools>

    <School Name="XiDian">

        <Class Id="030612">

            <Student Name="salomon">

                <Scores>

                    <Math>98</Math>

                    <English>85</English>

                    <physics>89</physics>

                </Scores>

            </Student>

            <Student Name="Jupiter">

                <Scores>

                    <Math>74</Math>

                    <English>83</English>

                    <physics>69</physics>

                </Scores>

            </Student>

        </Class>

        <Class Id="030611">

            <Student Name="Venus">

                <Scores>

                    <Math>98</Math>

                    <English>85</English>

                    <physics>89</physics>

                </Scores>

            </Student>

            <Student Name="Mars">

                <Scores>

                    <Math>74</Math>

                    <English>83</English>

                    <physics>69</physics>

                </Scores>

            </Student>

        </Class>

    </School>

</Schools>

Expat

　　Expat是一个面向流的解析器。您注册的解析器回调（或handler）功能，然后开始搜索它的文档。当解析器识别该文件的指定的位置，它会调用该部分相应的处理程序（如果您已经注册的一个）。该文件被输送到解析器，会被分割成多个片断，并分段装到内存中。因此expat可以解析那些巨大的文件。

SAX

　　SAX是个循序存取XML的解析器API，一个实现SAX的解析器（也就是“SAX Parser”）以一个串流解析器的型式作用，拥有事件驱动API。由使用者定义回调函数，解析时，若发生事件的话会被调用。事件在任一XML特性遇到时引发，以及遇到他们结尾时再次引发。XML属性也作为传给元素事件资料的一部分。SAX 处理时单方向性的；解析过的资料无法在不重新开始的情况下再次读取。

DOM

　　DOM解析器在任何处理开始之前，必须把整棵树放在内存，所以DOM解析器的内存使用量完全根据输入资料的大小（相对来说，SAX解析器的内存内容，是只基于XML档案的最大深度（XML树的最大深度）和单一XML项目上XML属性储存的最大资料）。

DOM在python3.2中有两种实现方式：
　　　　1.xml.minidom是一个基本的实现。
　　　　2.xml.pulldom只在需要时构建被访问的子树。

'''

Created on 2012-5-25

@author: salomon

'''

import xml.dom.minidom as minidom

dom = minidom.parse("E:\\test.xml")

root = dom.getElementsByTagName("Schools") #The function getElementsByTagName returns NodeList.

print(root.length)

for node in root:

    print("Root element is %s。" %node.tagName)# 格式化输出，与C系列语言有很大区别。

    schools = node.getElementsByTagName("School")

    for school in schools:

        print(school.nodeName)

        print(school.tagName)

        print(school.getAttribute("Name"))

        print(school.attributes["Name"].value)

        classes = school.getElementsByTagName("Class")

        print("There are %d classes in school %s" %(classes.length, school.getAttribute("Name")))

        for mclass in classes:

            print(mclass.getAttribute("Id"))

            for student in mclass.getElementsByTagName("Student"):

                print(student.attributes["Name"].value)

                print(student.getElementsByTagName("English")[0].nodeValue) #这个为什么啊？

                print(student.getElementsByTagName("English")[0].childNodes[0].nodeValue)

                student.getElementsByTagName("English")[0].childNodes[0].nodeValue = 75

f =  open('new.xml',  'w', encoding = 'utf-8')

dom.writexml(f,encoding = 'utf-8')

f.close()

ElementTree

目前搜到的ElementTree的信息较少，目前不知道其工作机制。有资料显示ElementTree近乎一种轻量级的DOM，但是ElementTree 所有的 Element 节点的工作方式是一致的。它很类似于C#中的XpathNavigator。

'''

Created on 2012-5-25

@author: salomon

'''

from xml.etree.ElementTree import ElementTree

tree = ElementTree()

tree.parse("E:\\test.xml")

root = tree.getroot()

print(root.tag)

print(root[0].tag)

print(root[0].attrib)

schools = root.getchildren()

for school in schools:

    print(school.get("Name"))

    classes = school.findall("Class")

    for mclass in classes:

        print(mclass.items())

        print(mclass.keys())

        print(mclass.attrib["Id"])

        math = mclass.find("Student").find("Scores").find("Math")

        print(math.text)

        math.set("teacher", "bada")

tree.write("new.xml")

Compare:

就以上几点来说Expat和SAX解析XML方式相同，就是不知道性能相比怎样。DOM相对于以上两种解析器，消耗内存，而且由于存取耗时，所以处理文件相对来说慢。如果文件太大无法载入内存，DOM这种解析器就不能用了，但是对于，某些种类的XML验证需要存取整份文件，或者某些XML处理仅要求存取整份文件的需求时，DOM是唯一选择。

Note:

需要指出的是存取XML的这几项技术并不是Python独创的，Python也是通过借鉴其他语言或者直接从其他语言引入进来的。例如Expat就是一个用C语言开发的、用来解析XML文档的开发库。而SAX最初是由DavidMegginson采用java语言开发的，DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。可以应用于任何编程语言。

做为对比我也想列举一下C#存取XML文档的方式：

　　1. 基于DOM的XmlDocument

　　2. 基于流文件的XmlReader 和 XmlWriter（它和SAX流文件实现不同，SAX是事件驱动模型）。

　　3. Linq to Xml

流文件两种模型：XmlReader/XMLWriter VS SAX

流模型每次迭代XML文档中的一个节点，适合于处理较大的文档，所耗内存空间小。流模型中有两种变体——“推”模型和“拉”模型。
　　推模型也就是常说的SAX，SAX是一种靠事件驱动的模型，也就是说：它每发现一个节点就用推模型引发一个事件，而我们必须编写这些事件的处理程序，这样的做法非常的不灵活，也很麻烦。
　　.NET中使用的是基于“拉”模型的实现方案，“拉”模型在遍历文档时会把感兴趣的文档部分从读取器中拉出，不需要引发事件，允许我们以编程的方式访问文档，这大大的提高了灵活性，在性能上“拉”模型可以选择性的处理节点，而SAX每发现一个节点都会通知客户机，从而，使用“拉”模型可以提高Application的整体效率。

Reference:

http://docs.python.org/py3k/

http://blog.csdn.net/kbkiss2010/article/details/5783834

[转]Python存取XML方法简介的更多相关文章

Python存取XML方法简介
<?xml version="1.0" encoding="utf-8"?> <Schools> <School Name=&qu ...
python 存取xml方法
或者也可以参考http://www.cnblogs.com/xiaowuyi/archive/2012/10/17/2727912.html中内容目前而言,Python 3.2存取XML有以下四种方 ...
Python和xml简介
python提供越来越多的技术来支持xml,本文旨在面向初学利用Python处理xml的读者,以教程的形式介绍一些基本的xml出来概念.前提是读者必须知道一些xml常用术语. 先决条件本文所有的例子 ...
python实现XML解析的三种方法
python实现XML解析的三种方法三种方法:一是xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合:二是xml.sax.*模块,它是SAX API的实 ...
Python 魔法方法简介
1.什么是魔法方法? 魔法方法就是可以给你的类增加魔力的特殊方法,如果你的对象实现(重载)了这些方法中的某一个,那么这个方法就会在特殊的情况下被 Python 所调用,你可以定义自己想要的行为,而这一 ...
Python Python-MySQLdb中的DictCursor使用方法简介
Python-MySQLdb中的DictCursor使用方法简介 by:授客 QQ:1033553122 DictCursor的这个功能是继承于CursorDictRowsMixIn,这个Mi ...
列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 以及join()在python中的用法简介
列表[‘hello’ , ‘python’ ,’!’ ] 用多种方法拼接,并输出’hello python !’ 使用字符串链接的四种方法都可以创建字符串拼接一共有四种方法,也可以应用到列表的拼接中 ...
Python之xml文档及配置文件处理（ElementTree模块、ConfigParser模块）
本节内容前言 XML处理模块 ConfigParser/configparser模块总结一.前言我们在<中我们描述了Python数据持久化的大体概念和基本处理方式,通过这些知识点我们已经 ...
Python实现XML文件解析
1. XML简介 XML(eXtensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据,已经日趋成为当前许多新生技术的核心,在不同的领域都有着不同的应用.它是web ...

随机推荐

hdu5351 MZL's Border(规律题，java)
转载请注明出处: http://www.cnblogs.com/fraud/ ——by fraud MZL's Border Time Limit: 2000/1000 MS (Ja ...
python之简单入门01
python简单的介绍使用: 一.个人感觉写Python程序,最好用的工具就是pycharm了,自动补全功能可以满足大多数不太喜欢记忆的人群: 安装pycharm之前应该先安装python解释器,目 ...
一个商品练习的py
#!/usr/bin/env python # coding=utf-8 # by 星空刺 qian = int(raw_input("请输入当前money:")) gongzi ...
sudo 无法解析主机的解决办法
错误存在于更改主机名字后,解决办法如下: sudo gedit /etc/hosts找到如下行:127.0.1.1 XXX将其修改为:127.0.1.1 (你现在的主机名) 保 ...
JAVA语言对比C++语言的几个优点和自身的关键特性
之所以写这篇博客不是为了比较JAVA语言和C++语言到底孰优孰劣,而是从语言本身出发进行对比总结程序编码设计上的差别.因水平有限,某些内容可能太过片面,欢迎指正和讨论. JAVA语言在设计上很好地借鉴 ...
java生产者消费者并发协作
随着职务转变,代码荒废很久了,很多时间都是在沟通需求,作为一名技术员,不写代码就感觉是在自废武功,慢慢颓废了很多,今天重新回顾了下JAVA线程知识,基础知识就不梳理了,网上也很多,主要关键几个状态位( ...
Oracle字符函数(转换大小写，替换等)
在oracle中,有一些字符函数: upper(字符串):转换为大写lower(字符串):转换为小写initcap(字符串):首字母大写replace(字符串1,字符串2,字符串3):将串1中所有的串 ...
linux下ifconfig, DNS以及route配置
转载:http://blog.csdn.net/wangjingfei/article/details/5283632/ 熟悉使用ifconfig 会非常方便. ifconfig eth0 新ip 然 ...
学习Haskell的一些资料
趣学Haskell指南: http://fleurer-lee.com/lyah/chapters.htm 对应的英文原文: http://learnyouahaskell.com/chapters ...
【转】树莓派学习笔记——I2C Tools 学习笔记
原文网址:http://blog.csdn.net/xukai871105/article/details/15029843 1.安装 I2C驱动载入和速率修改请查看博文[树莓派学习笔记——I ...

[转]Python存取XML方法简介

[转]Python存取XML方法简介的更多相关文章

随机推荐

热门专题