python sax解析xml

#books.xml
<catalog>

    <book isbn="0-596-00128-2">

        <title>Python &amp; XML</title>

        <title>Python &amp; HTML</title>

        <date>December 2001</date>

        <author>Jones, Drake</author>

    </book>

    <book isbn="0-596-15810-6">

        <title>Programming Python, 4th Edition</title>

        <date>October 2010</date>

        <author>Lutz</author>

    </book>

    <book isbn="0-596-15806-8">

        <title>Learning Python, 4th Edition</title>

        <date>September 2009</date>

        <author>Lutz</author>

    </book>

    <book isbn="0-596-15808-4">

        <title>Python Pocket Reference, 4th Edition</title>

        <date>October 2009</date>

        <author>Lutz</author>

    </book>

    <book isbn="0-596-00797-3">

        <title>Python Cookbook, 2nd Edition</title>

        <date>March 2005</date>

        <author>Martelli, Ravenscroft, Ascher</author>

    </book>

    <book isbn="0-596-10046-9">

        <title>Python in a Nutshell, 2nd Edition</title>

        <date>July 2006</date>

        <author>Martelli</author>

    </book>

    <!-- plus many more Python books that should appear here -->

</catalog>

#conding:utf-8

# -*- coding:utf-8 -*-

__author__ = 'hdfs'

'''

总的来说 sax解析xml 进行3个阶段 sax是线性解析对于大的xml会很有效率

'''

import xml.sax,xml.sax.handler,pprint

class BookHandler(xml.sax.handler.ContentHandler):

    def __init__(self):

        self.inTitle=False

        self.mapping={}

    def startElement(self, name, attrs):

        #book标签开始

        if name=="book":

            self.buffer=""

            self.isbn=attrs["isbn"]

        #title标签开始

        elif name=="title":

            self.inTitle=True

    def characters(self,data):

        #如果真的进入buffer 关联多个子节点的数据

        if self.inTitle:

            self.buffer+=data

    #结束一个元素的遍历

    def endElement(self,name):

        if name=="title":

            self.inTitle=False

            self.mapping[self.isbn]=self.buffer

parser=xml.sax.make_parser()

handler=BookHandler()

parser.setContentHandler(handler)

parser.parse('books.xml')

pprint.pprint(handler.mapping)

result:

{u'0-596-00128-2': u'Python & XMLPython & HTML',

 u'0-596-00797-3': u'Python Cookbook, 2nd Edition',

 u'0-596-10046-9': u'Python in a Nutshell, 2nd Edition',

 u'0-596-15806-8': u'Learning Python, 4th Edition',

 u'0-596-15808-4': u'Python Pocket Reference, 4th Edition',

 u'0-596-15810-6': u'Programming Python, 4th Edition'}

python sax解析xml的更多相关文章

Python：使用基于事件驱动的SAX解析XML
SAX的特点: 是基于事件的 API 在一个比 DOM 低的级别上操作为您提供比 DOM 更多的控制几乎总是比 DOM 更有效率但不幸的是,需要比 DOM 更多的工作基于对象和基于事件的接口 ...
Python—使用xml.sax解析xml文件
什么是sax? SAX是一种基于事件驱动的API. 利用SAX解析XML文档牵涉到两个部分:解析器和事件处理器. 解析器负责读取XML文档,并向事件处理器发送事件,如元素开始跟元素结束事件; 而事件处 ...
用 ElementTree 在 Python 中解析 XML
用 ElementTree 在 Python 中解析 XML 原文: http://eli.thegreenplace.net/2012/03/15/processing-xml-in-python- ...
Android之SAX解析XML
一．SAX解析方法介绍 SAX(Simple API for XML)是一个解析速度快并且占用内存少的XML解析器,非常适合用于Android等移动设备. SAX解析器是一种基于事件的解析器,事件驱动 ...
Android 使用pull,sax解析xml
pull解析xml文件 1.获得XmlpullParser类的引用这里有两种方法 //解析器工厂 XmlPullParserFactory factory=XmlPullParserFactory. ...
JAVA使用SAX解析XML文件
在我的另一篇文章(http://www.cnblogs.com/anivia/p/5849712.html)中,通过一个例子介绍了使用DOM来解析XML文件,那么本篇文章通过相同的XML文件介绍如何使 ...
DOM&SAX解析XML
在上一篇随笔中分析了xml以及它的两种验证方式.我们有了xml,但是里面的内容要怎么才能得到呢?如果得不到的话,那么还是没用的,解析xml的方式主要有DOM跟SAX,其中DOM是W3C官方的解析方式, ...
cocos2d-x 3.0 使用Sax解析xml文件（中国显示器问题解决）
今天是个好日子.我以为事情可以变得,明天是个好日子.打开门儿春风... 恩,听着歌写文档生活就是这么享受. 今天曾经的邻居大神突然在qq上赞了我一下,这让我异常激动啊.. 这还要从前前前几天说起,那会 ...
SAX解析xml浅析
SAX解析XML文件采用事件驱动的方式进行,也就是说,SAX是逐行扫描文件,遇到符合条件的设定条件后就会触发特定的事件,回调你写好的事件处理程序.使用SAX的优势在于其解析速度较快,占用内存较少(相对 ...

随机推荐

godaddy虚拟空间的伪静态配置
原文发布时间为:2011-02-24 -- 来源于本人的百度文章 [由搬家工具导入] 只要在web.config文件的<configuration>子节点下加入以下节点，即可实现伪静态 ...
【传输文件】文件传输协议FTP、SFTP和SCP
网络通信协议分层应用层: HTTP(Hypertext Transfer Protocol 超文本传输协议,显示网页) DNS(Domain Name System) FTP(File Transf ...
《手把手教你学C语言》学习笔记（8）--- 运算符和表达式
C语言编程的核心是指针和库,而库的核心就是函数,函数的基本组成部分就是语句. C语言合法表达式加上分号(语句结束符)构成C函数的基本部分语句.如果只有分号没有表达式就构成空语句,空语句常常用来形成占位 ...
C++学习（一）：现代C++尝试
C++是一门与时俱进的语言. 早期的C++关注的主要问题是通用性,却没有太多关注易用性的问题,使得C++成为了一门多范式语言,但是使用门槛较高. 从2011开始,C++的标准进行了较大的更新,开始更多 ...
golang xorm reverse 自动生成数据库实体文件
一.先安装好需要的东西 xorm 也可以参考官方文档 readme.md https://github.com/go-xorm/cmd 和 http://xorm.io/docs/ go get gi ...
LeetCode OJ--Sum Root to Leaf Numbers
https://oj.leetcode.com/problems/sum-root-to-leaf-numbers/ 给一棵树,找从根到叶的路径,并把路径上的数相加,求和. 树的深度优先搜索 /** ...
(1)jquery基本用法
引入jquery 本地引用 <script src="jquery-3.2.1.js"></script> 网络引用谷歌CDN <script sr ...
Codeforces Round #451 (Div. 2) A. Rounding【分类讨论/易错】
A. Rounding time limit per test 1 second memory limit per test 256 megabytes input standard input ou ...
Codeforces 158 B. Taxi[贪心/模拟/一辆车最多可以坐4人同一个群的小朋友必须坐同一辆车问最少需要多少辆车]
http://codeforces.com/problemset/problem/158/B B. Taxi time limit per test 3 seconds memory limit pe ...
ECNU 3480 没用的函数（ST表预处理 + GCD性质）
题目链接 ECNU 2018 JAN Problem E 这题卡了双$log$的做法令$gcd(a_{i}, a_{i+1}, a_{i+2}, ..., a_{j}) = calc(i, j)$ ...

python sax解析xml

python sax解析xml的更多相关文章

随机推荐

热门专题