【Python】 xml解析与生成 xml

xml

　　*之前用的时候也没想到。。其实用BeautifulSoup就可以解析xml啊。。因为html只是xml的一种实现方式吧。但是很蛋疼的一点就是，bs不提供获取对象的方法，其find大多获取的都是字符串，这就导致不得不一遍遍地连续通过bs总对象来定位元素再输出这样子。挺麻烦的。

　　xml是一种常用的网络通讯格式，也是一种文件的格式。xml包里有多种不同的可用于解析&生成文件的模块，比如：

　　　　xml.dom.minidom

　　　　xml.etree.ElementTree

　　　　xml.aix等等。这三者比较起来，minidom最贴近底层代码，但是写起来也最烦。本文主要通过ElementTree来解析&生成。尽管ElementTree也有很多不合理的地方，但是可以通过修改源码，重载源码的部分方法来解决。

　　■　　ElementTree基本用法

from xml.etree import ElementTree

doc = ElementTree.parse("文件路径"or"文件对象"[,parser=...])

'''

虽然也可用ElementTree直接来生成文件对象，但是用parse来生成的话可以指定parser。这个parser后面会讲到有什么作用

'''

　　所得到的doc对象就是文件的根节点对象。所谓根节点，就是整个文件第一对有效的标签所指代的节点。

　　● 对于每个节点，都有：

　　　　.text　　代表该节点的文本内容（和bs一样，那些有子孙元素但是本身没有内容的节点的这个属性是空串，需要注意）

　　　　.attrib　　代表该节点的属性（字典形式）

　　　　.tag　　代表该节点的tag名

　　● 而对于包括根节点在内的所有节点都有以下节点可调用的方法：

　　　　.find("tag名")　　找出其子节点中第一个指定tag名的节点

　　　　.findall("tag名")　　找出所有子节点which是指定的tag名，返回一个列表

　　　　.findtext("tag名")　　找出相应子节点的文本内容，相当于上面的find找到对象之后再访问其.text属性

　　　　//以上三个方法都是只检索子节点，不检索孙节点以及更加后辈的节点

　　　　.getiterator([tag])　　从当前节点开始，生成一个迭代器，里面是遍历了包括当前节点在内的所有后辈节点。tag参数相当于一个filter，指定tag的话迭代器只返回tag名和给出值一致的节点。

　　　　*以上的那些find啥啥的方法，里面的tag名其实是有语法的。单纯的"tag"就只检索当前节点的子节点中名为tag的节点。如果是'.//tag'的话就是搜索所有后辈节点中的tag节点了。更多具体的语法可以参见python参考手册，就不多说了

　　● 另外，ElementTree也在节点对象中实现了几个magic method，所以节点（这次不包括根节点了）也有了如下借口：

　　　　elem[n]　　节点elem的第n个子节点（不是n+1个！）

　　　　del elem[n]　　删除elem的第n个子节点

　　　　len(elem)　　子节点的个数

　　　　elem[n] = newElement　　将某个子节点替换成另外一个element

　 ● 对于非根节点，还有以下的一些方法：

　　　　clear()　　清空所有后辈节点

　　　　append(Element)　　加入一个新子节点

　　　　get(key)　　获取某个属性的值

　　　　insert(index,Element)　　将子节点插入某个特定的位置

　　　　remove(Element)　　从该节点中移除一个子节点

　　　　set(key,value)　　设置某个节点的属性值

　 ● 关于Element的构造方法

　　　　上面很多方法都用element作为参数，那么element是怎么来的，就要用到Element构造方法了。

　　　　ElementTree.Element(tag[,attrib])　　构造一个Element，但是没有文本内容

　　　　ElementTree.XML("xmlcode")　　将一段xml代码转化为一个Element对象，比较实用

　　　　ElementTree.Comment("text")　　生成一段注释的Element对象

● 最后，ElementTree还提供了几个类方法

　　　　ElementTree.dump(Element)　　把相关element的内容打印出来，主要用于调试。因为element对象普遍没有实现__repr__方法

　　　　ElementTree.iselement(element)　　判断某个对象是不是有效的element对象

　以上的所有操作都是对存储在内存中的一个XMLTree对象的改动，要想保存成文件，只要根节点调用方法write即可

doc.write("文件路径"or"w模式文件对象"[,encoding=xxx])

　这里面的encoding参数也有点意思。encoding的默认值是utf-8，当encoding被指定且不是utf-8或者ascii的时候，在新生成的文件头上自动会加一条<?xml version="1.0" encoding="xxx">

　　*ElementTree有一个很大的问题，就是在默认情况下，会吃掉所有注释内容。

　　　这种现象的原因是因为，源码中默认的TreeBuilder（这个类的作用是构建一个对象，这个对象用来存储抽象化后的文件内容。）在建立Tree对象的时候没有写处理注释的方法。

　　　解决方法是自己写个CommentedTreeBuilder类来重载处理注释：

class CommentedTreeBuilder(XMLTreeBuilder):

    def __init__(self, html=0, target=None):

        XMLTreeBuilder.__init__(self, html, target)

        self._parser.CommentHandler = self.handle_comment    #指定处理comment的方法。

    def handle_comment(self, data):

        '''

        默认的处理comment的方法是什么都不做直接pass，而在这个方法里，通过start，data和end三个方法，相当于把注释的内容原封不动地复制到创建的Tree对象里去，使得注释得以保存

        '''

        self._target.start(Comment, {})

        self._target.data(data)

        self._target.end(Comment)

　　handle_comment方法接受的参数data是一个ascii字符串或者unicode字符串。当有中文字符时无疑data是unicode。如果在write的时候不指明encoding类型的话可能会出现写入中文字符出错，变成其编码的格式了。解决办法就是在write的时候指出encoding参数如encoding='UTF-8'

【Python】 xml解析与生成 xml的更多相关文章

使用XML序列化器生成XML文件和利用pull解析XML文件
首先,指定XML格式,我指定的XML格式如下: <?xml version='1.0' encoding='utf-8' standalone='yes' ?> <message&g ...
使用Pull解析器生成XML文件和读取xml文件
有些时候,我们需要生成一个XML文件,生成XML文件的方法有很多,如:可以只使用一个StringBuilder组拼XML内容,然后把内容写入到文件中:或者使用DOM API生成XML文件,或者也可以使 ...
SAX解析和生成XML文档
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本人声明.否则将追究法律责任. 作者: 永恒の_☆ 地址: http://blog.csdn.net/chenghui031 ...
xml解析与生成的学习资料
xml解析与生成的学习资料:http://blog.csdn.net/u012325167/article/category/6129813 ----------------------------- ...
maven中使用dom4j解析、生成XML的简易方法
此片文章主要写一些关于如何在maven工程中使用dom4j来解析或生成XML的建议方法,实际可使用的写法不仅限于如下所写的样例代码.此处进攻快速入手和提供思路使用. 首先配置pom.xml中的依赖的包 ...
使用Pull解析器生成XML文件
有些时候,我们需要生成一个XML文件,生成XML文件的方法有很多,如:可以只使用一个StringBuilder组拼XML内容,然后把内容写入到文件中:或者使用DOM API生成XML文件,或者也可以使 ...
面试官问我：如何在 Python 中解析和修改 XML
摘要:我们经常需要解析用不同语言编写的数据.Python提供了许多库来解析或拆分用其他语言编写的数据.在此 Python XML 解析器教程中,您将学习如何使用 Python 解析 XML. 本文分享 ...
使用XMl序列化器生成xml文件
生成XML文件创建几个虚拟的短信对象,存在list中备份数据通常都是备份至sd卡使用StringBuffer拼接字符串把整个xml文件所有节点append到sb对象里 sb.append(&q ...
python 解析与生成xml
xml.etree.ElementTree模块为xml文件的提取和建立提供了简单有效的API.下文中使用ET来代表xml.etree.ElementTree模块. XML是一种内在的分层的数据形式,展 ...

随机推荐

ClientToScreen 和ScreenToClient 用法
ClientToScreen( )是把窗口坐标转换为屏幕坐标 ScreenToClient( )是把屏幕坐标转换为窗口坐标屏幕坐标是相对于屏幕左上角的,而窗口坐标是相对于窗口用户区左上角的 VC下, ...
SSH2三大框架SQL查询
/** * 查询省份名称 * @author YHD * @return * @see */ @SuppressWarnings("unchecked") @Override pu ...
VxWorks中的中断应用设计要点
硬件中断处理是实时系统设计中的关键性问题,设计人员有必要对其作深入研究,以更好地满足开发工作需要.文中以VxWorks操作系统为软件平台,讨论了在实时系统中进行中断应用设计时要注意的一些问题.由于软硬 ...
Error 1313: RETURN is only allowed in a FUNCTION SQL Statement
1.错误描述 14:07:26 Apply changes to rand_string Error 1313: RETURN is only allowed in a FUNCTION SQL St ...
ReferenceError: Error #1065: 变量 dataGridArray 未定义
1.错误描述 ReferenceError: Error #1065: 变量 dataGridArray 未定义. at global/flash.utils::getDefinitionByName ...
iOS - EaseMob 环信的使用
1.环信环信使用的是 XMPP 协议,它是在 XMPP 的基础上进行的二次开发,对服务器 Openfire 和客户端进行功能模型的添加和客户端 SDK 的封装.环信的本质还是使用 XMPP,基于 S ...
【BZOJ4566】找相同字符（后缀数组）
[BZOJ4566]找相同字符(后缀数组) 题面 BZOJ 题解后缀数组的做法,应该不是很难想首先看到两个不同的串,当然是接在一起求\(SA,height\) 那么,考虑一下暴力在两个串各枚举一 ...
Luogu P1860 新魔法药水
题目大意具体题面及输入格式戳我! 商店里有\(N\)种药水,每种药水都有一个售价和回收价. 小\(S\) 攒了\(V\)元钱,还会\(M\)种魔法,可以把一些药水合成另一种药水. 他在第一天可以购买 ...
【BZOJ3282】Tree （Link-Cut Tree）
[BZOJ3282]Tree (Link-Cut Tree) 题面 BZOJ权限题呀,良心luogu上有题解 Link-Cut Tree班子提最近因为NOIP考炸了学科也炸了时间显然没有以后 ...
FFT/NTT 总结
本总结主要用于帮助个人理解,讲得不足之处,还请各位看官谅解 FFT 补充知识 \(n\)次单位复根(\(w_n\)): 使得\(z^n=1\)的一类复数,这些复数一共有\(n\)个,它们都分布在复平面 ...

【Python】 xml解析与生成 xml

【Python】 xml解析与生成 xml的更多相关文章

随机推荐

热门专题