Etree方式解析xml知识积累

movies.xml:
<collection shelf="New
Arrivals">
<movie title="Enemy Behind">
<type>War, Thriller</type>
<format>DVD</format>
<year>2003</year>
<rating>PG</rating>
<stars>10</stars>
<description>Talk about a US-Japan war</description>
</movie>
<movie title="Transformers">
<type>Anime, Science Fiction</type>
<format>DVD</format>
<year>1989</year>
<rating>R</rating>
<stars>8</stars>
<description>A schientific fiction</description>
</movie>
<movie title="Trigun">
<type>Anime, Action</type>
<format>DVD</format>
<episodes>4</episodes>
<rating>PG</rating>
<stars>10</stars>
<description>Vash the Stampede!</description>
</movie>
<movie title="Ishtar">
<type>Comedy</type>
<format>VHS</format>
<rating>PG</rating>
<stars>2</stars>
<description>Viewable boredom</description>
</movie>
</collection>
遍历 xml 文件：

>>>
import sys

>>>
try:

... import xml.etree.cElementTree as ET

...
except ImportError:

... import xml.etree.ElementTree as ET

...

导入包，推荐使用cElementTree，效率高（带C的效率高）

>>>
tree = ET.ElementTree(file='e:\\movie.xml')

>>>
root = tree.getroot()

>>>
print root.tag #打印标题大标签

collection

>>>
print root.attrib #打印根部标签属性

{'shelf': 'New Arrivals'}

>>>
for subnode in root: #遍历根节点下的一级子节点及属性

... print subnode

... print subnode.tag

... print subnode.attrib

...

movie

{'title':
'Enemy Behind'}

movie

{'title':
'Transformers'}

movie

{'title':
'Trigun'}

movie

{'title': 'Ishtar'}

>>>
root[0].getchildren() #获得第一个根节点的子节点

[<Element
'type' at 0x00000000022DD510>, <Element 'format'

>,
<Element 'year' at 0x00000000022DD5A0>, <Element 'rating

D0>,
<Element 'stars' at 0x00000000022DD600>, <Element 'des

00022DD660>]

>>>
root[0].getchildren()[1] #获得第一个根节点的第二个子节点

>>>
root[0].getchildren()[1].text #获得第一个根节点的第二个子节点的文本

'DVD'

小练习：获得所有根节点下的description

>>>
for element in root:

... print element.getchildren()[-1].text

...

Talk
about a US-Japan war

A
schientific fiction

Vash the
Stampede!

Viewable boredom

1. 继续遍历xml文件

>>> print root #拿到根节点

>>> print root[0] #拿到根节点第一个

>>> print root[0][0] #拿到根节点第一个的第一个元素

>>> print root[0][0].tag #拿到根节点第一个的第一个元素的标签

type

>>> print root[0][0].text #拿到根节点第一个的第一个元素的文本

War, Thriller

>>> print root[0][0].attrib #拿到根节点第一个的第一个元素的属性

{}

注意：修改xml后再读取属性需要重新获取tree.root，否则内存中仍保留未修改前解析的tree结构，读取结果也是未修改前的。

修改xml增加一个属性值后再读取：

>>> tree =
ET.ElementTree(file='e:\\movie2.xml')

>>> root = tree.getroot()

>>> print root[0]

>>> print root[0][0]

>>> print root[0][0].attrib

{'a': 'qiqiqiqi'}

>>> print root[0][0].text

War, Thriller

>>> print root[0][0].tag

Type

2.继续遍历xml文件

>>> tree =
ET.ElementTree(file='e:\\movie2.xml')

>>> for element in tree.iter():

...
print element #获取根节点下的所有元素及标签名

...
print element.tag

...

collection

movie

type

format

year

rating

stars

description

movie

type

format

year

rating

stars

description

movie

type

format

episodes

rating

stars

description

movie

type

format

rating

stars

Description

小练习：统计一下这个root下有多少个movie？

自己的方法：

>>> tree =
ET.ElementTree(file='e:\\movie2.xml')

>>> result = 0

>>> for element in tree.iter():

...
if element.tag == "movie":

...
result+=1

...

>>> print result

小练习：统计一下这个root下全部的标签个数？

>>> count=0

>>> for element in tree.iter():

...
count+=1

...

>>> print count

老师的方法：读文件

直接用iterfind：

>>> count=0

>>> for element in tree.iterfind('movie'):

...
count+=1

...

>>> print count

用tag找标签名：

>>> for element in tree.iter(tag =
'movie'):

...
print element

...

小练习：判断是否存在1989的值

>>> for element in tree.iter():

...
if element.text == "1989":

...
print "find it!"

...
break

... else:

...
print "not exist!"

...

find it!

3. 继续遍历xml文件

删除：

print tree.write(sys.stdout) #将 xml 文件的内容写到屏幕上
tree.write("d:\\movies.xml")
#将变更的 xml 文件写入到文件中

>>> del root[0]
>>> del root[0]
>>> del root[0]
>>> import sys
>>> print tree.write(sys.stdout)
<collection shelf="New Arrivals">
<movie title="Ishtar">
   <type>Comedy</type>
   <format>VHS</format>
   <rating>PG</rating>
   <stars>2</stars>
   <description>Viewable boredom</description>
</movie>
</collection>None
>>>
>>> tree.write("e:\\movies.xml")

删除只是删除内存中的，在写入回去才会删除

4. 创建xml文件

>>> import sys

>>> import xml.etree.cElementTree
as ET

>>> a = ET.Element('elem') #生成一个节点 elem，没有文本节点

>>> c = ET.SubnElement(a,'child1')
#生成一个字节点下的子节点 child1

>>> c = ET.SubElement(a,'child1') #在子节点上添加文本节点

>>> c.text = 'qiqiqi'

>>> d = ET.SubElement(a,'child2') #生成一个字节点下的子节点 child2

>>> b = ET.Element('elem_b') #生成一个节点 elem_b，没有文本节点

>>> root = ET.Element('root') #生成一个节点 root

>>> root.extend((a,b)) #把a，b两个值同级写入根节点

>>> tree = ET.ElementTree(root) #生成节点树

>>> root[0].set('foo','bar') #设定第一个子元素的属性 foo,值为 bar

>>> print tree.write(sys.stdout) #打印节点树

<root><elem
foo="bar"><child1>qiqiqi</child1><child2
/></elem><elem_b /

one

>>> tree.write(sys.stdout) #将 xml 文件内容写到屏幕上

<root><elem
foo="bar"><child1>qiqiqi</child1><child2
/></elem><elem_b /

tree.write("d:\\test.xml") #将 xml 文件内容写入到文本文件中

练习：自己创建一个xml的文件，里面包含数据的ip和端口信息，以及用户名和密码

同学的答案：

#encoding=utf-8
import sys
try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET
a = ET.Element('ipinfo')
c = ET.SubElement(a, 'ipadress')
c.text = "10.20.178.90

"
d = ET.SubElement(a, 'port')
d.text ="8080"
a2 = ET.Element('userinfo')
c2= ET.SubElement(a2, 'username')
c2.text = "administrator"
d2= ET.SubElement(a2, 'password')
d2.text ="000000"
root = ET.Element('root')
root.extend((a, a2)) #将a和a2加到root节点下
tree = ET.ElementTree(root) #生成节点树
root[0].set('conf', 'sql')
print tree.write(sys.stdout)
tree.write("E:\\test2.xml")

面试题：有一个数组，里面满足一个条件，就是从里面随机取出三个值，之和为0，那么输出这数组中的三个数 eg：0,0,0，1，-1,2，-1

import random
a=[0,0,0,1,1,-1,-1,2]
count = 0
while 1:
    count+=1
    random.shuffle(a)
#把a的顺序打乱
    if a[0]+a[1]+a[2] == 0: #每次取前3个（防止取出来的是同一个元素）
        print a[0],a[1],a[2]
        break
print count

同学的方法：

list = [0,0,0,1,-1,2,-1]
while True:
    slice = random.sample(list, 3)
    if sum(slice)==0:
        print slice
        break

平时还得多训练多做题

5. 边读边解析xml文件

#coding=utf-8
import sys
try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET
tree = ET.parse("d:\\movies.xml")
count = 0
for elem in tree.iter(tag='movie'): #遍历树中的 movie
节点
print elem.tag
if elem[0].text == 'War, Thriller':
count += 1
print count
#以下代码实现了边读文件边解析的作用，节省了内存
count = 0
for event, elem in ET.iterparse("d:\\movies.xml"): #遍历所有 xml 文件中的标签
#print elem.tag
if event == 'end': #检测“闭合的” (end)事件，标签关闭
if elem.tag == 'type' and elem.text
== 'War, Thriller': #标签为 type，且文本内容为
War, Thriller ,则 count+1
count += 1
elem.clear() #清除元素内容,不清除则整个儿树也会在内存中，没有起到节省内存的作用。
print count
#事件
#start 在元素打开时触发。数据和元素的子元素仍不可用。
# end 在元素关闭时触发。所有元素的子节点，包括文本节点，现在都是可用的。
#close 在解析完成后触发。

官方文档：

https://docs.python.org/2/library/xml.etree.elementtree.html

http://www.cnblogs.com/hongfei/p/python-xml-sax.html

Etree方式解析xml知识积累的更多相关文章

Android网络之数据解析----SAX方式解析XML数据
[声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://www.cnblogs.com/smyhvae/p/ ...
(四)SAX方式解析XML数据
SAX方式解析XML数据文章来源:http://www.cnblogs.com/smyhvae/p/4044170.html 一.XML和Json数据的引入: 通常情况下,每个需要访问网络的应用程 ...
网络相关系列之四：数据解析之SAX方式解析XML数据
一.XML和Json数据的引入: 通常情况下.每一个须要訪问网络的应用程序都会有一个自己的server.我们能够向server提交数据,也能够从server获取数据.只是这个时候就有一个问题,这些数据 ...
用JAXP的dom方式解析XML文件
用JAXP的dom方式解析XML文件,实现增删改查操作 dom方式解析XML原理 XML文件 <?xml version="1.0" encoding="UTF-8 ...
Dom方式解析XML
public class TestXML { public static void main(String[] args) throws SAXException, IOException { //D ...
用DOM方式解析XML
一.用DOM方式解析XML 此例子节点结构如下: 1.获取book节点属性 (1).如果不知道节点的属性,通过 NamedNodeMap attrs = book.getAttributes(); 来 ...
在iOS 开发中用GDataXML(DOM方式)解析xml文件
因为GDataXML的内部实现是通过DOM方式解析的,而在iOS 开发中用DOM方式解析xml文件,这个时候我们需要开启DOM,因为ios 开发中是不会自动开启的,只有在mac 开发中才自动开启的.我 ...
android-pull方式解析xml文件以及XML文件的序列化
android解析XML ---------------------------基础要像磐石在android平台上可以使用SAX.DOM和自带的Pull解析器解析xml文件,本文主要介绍使用pull ...
Java&Xml教程（五）使用SAX方式解析XML文件
Java SAX解析机制为我们提供了一系列的API来处理XML文件,SAX解析和DOM解析方式不太一样,它并不是將XML文件内容一次性全部加载,而是连续的部分加载. javax.xml.parsers ...

随机推荐

在ASP.NET中，后台代码向页面写HTML代码
Literal lt = new Literal();lt.Text = "<a href=\"http://www.czbin.cn\">czbin的博客& ...
jQuery测试
1.在div元素中,包含了一个<span>元素,通过has选择器获取<div>元素中的<span>元素的语法是? 提示使用has() $("div&quo ...
pay-spring-boot 开箱即用的Java支付模块，整合支付宝支付、微信支付
关于使用本模块,可轻松实现支付宝支付.微信支付对接,从而专注于业务,无需关心第三方逻辑. 模块完全独立,无支付宝.微信SDK依赖. 基于Spring Boot. 依赖Redis. 我能做什么支付宝 ...
五、UML类图和六大原则-----《大话设计模式》
一.单一职责原则就一个类而言,应该仅有一个引起它变化的原因. 如果一个类承担的职责过多,就等于把这些职责耦合在一起,一个职责的变化可能会削弱或者抑制这个类完成其他职责的能力.这种耦合 ...
System.TypeInitializationException: 'The type initializer for 'MySql.Data.MySqlClient.Replication.ReplicationManager' threw an exception.'
下午在调试的时候报错数据库连接就报错我就很纳闷后面用原来的代码写发现还是报错 System.TypeInitializationException: 'The type initializer for ...
Spring MVC异常统一处理（包括普通请求异常以及ajax请求异常）
通常SpringMVC对异常的配置都是返回某个jsp视图给用户,但是通过ajax方式发起请求,即使发生异常,前台也无法获得任何异常提示信息.因此需要对异常进行统一的处理,对于普通请求以及ajax请求的 ...
洛谷P1628 合并序列
题目描述有N个单词和字符串T,按字典序输出以字符串T为前缀的所有单词. 输入输出格式输入格式: 输入文件第一行包含一个正整数N: 接下来N行,每行一个单词,长度不超过100: 最后一行包含字符串T ...
（十）maven之排除冲突jar包
排除冲突jar包 jar包冲突 <dependencies> <dependency> <groupId>org.springframework</group ...
rhythmbox插件开发笔记2：背景知识学习 D-Bus&VFS&Gio& Python GTK+ 3
这次主要简单介绍下相关的背景知识 D-Bus&VFS&Gio& Python GTK+ 3 D-Bus D-Bus是开源的进程通信(IPC)系统,它允许多个进程进行实时通信. ...
java面试基础篇（三）
1.Q:ArrayList 和 LinkedList 有什么区别? A:ArrayList查询快!LinkedList增删快.ArrayList是基于索引的数据接口,它的底层是数组.空间占用相对小一些 ...

Etree方式解析xml知识积累

Etree方式解析xml知识积累的更多相关文章

随机推荐

热门专题