python中lxml的应用

首先下载lxml， http://www.lfd.uci.edu/~gohlke/pythonlibs/ ，然后添加引用

from lxml import _elementpath as DONTUSE

from lxml import etree

具体示例：

1.添加命名空间

#set namespace

nsmap = {"xsi": "http://www.w3.org/2001/XMLSchema-instance" }

g_statisticsRoot = etree.Element("DcmStatistics", nsmap = nsmap)

2.添加xml schema引用

#add xsd reference

g_statisticsRoot.set("{http://www.w3.org/2001/XMLSchema-instance}noNamespaceSchemaLocation", "DcmStatistics.xsd" )

3.添加注释

#add comment，利用addprevious添加到根节点的前面

comment = etree.Comment("create by jiangong.li")

g_statisticsRoot.addprevious(comment)

4.尝试多种编码来解析xml

def decodingXml(xmlFile):

tree = None

encoding = "utf-8"

while(True):

try:

parser = etree.XMLParser(remove_blank_text= True, encoding=encoding, remove_comments = False)

tree = etree.parse(xmlFile, parser)

except Exception as e:

if (encoding != "gb18030"):

encoding = "gb18030"

continue

else:

print( "\nPAR XML ERROR, decoding error." )

break

return tree

5.遍历xml下的所有子节点，不止直属第一级子节点. iter()

for element in root.iter():

element.tail = None

6.遍历xml下的第一级子节点. iterchildren()

for e in srcParentNode.iterchildren():

if e is srcParentNode:

continue

name = ""

#statistics node

if e.tag == "element":

name = "Element"

elif e.tag == "sequence":

name = "Sequence"

elif e.tag == "item":

name = "Item"

else:

print( "\nUnsupported element type: %s\n" %(e.tag))

name = e.tag

# Only parse element/sequence/item

continue

7.添加子节点到尾部. append()

def getXmlElement(nodeName, parentNode):

if parentNode == None:

raise Exception( "parent node is None")

nodes = parentNode.xpath( './'+nodeName)

if len(nodes) == 0:

node = etree.Element(nodeName)

parentNode.append(node)

return node

else:

return nodes[0]

8.格式化成str输出

etree.tostring(g_statisticsRoot, encoding= "UTF-8", xml_declaration=True , pretty_print=True, with_comments=True )

9.保存成xml文件

statisticsResult = open(g_xmlName, "bw+")

statisticsResult.write(etree.tostring(g_statisticsRoot, encoding= "UTF-8", xml_declaration=True, pretty_print=True , with_comments=True))

statisticsResult.flush()

statisticsResult.close()

python中lxml的应用的更多相关文章

python中的lxml模块
Python中自带了XML的模块,但是性能不太好,相比之下,LXML增加了很多实用的功能. lxml中主要有两部分, 1) etree,主要可以用来解析XML字符串, 内部有两个对象,etree._E ...
【python】lxml
来源:http://lxml.de/tutorial.html lxml是python中处理xml的一个非常强大的库,可以非常方便的解析和生成xml文件.下面的内容翻译了链接中的一部分 1.生成空xm ...
如何导入python中的模块
作为一名新手Python程序员,你首先需要学习的内容之一就是如何导入模块或包.但是我注意到,那些许多年来不时使用Python的人并不是都知道Python的导入机制其实非常灵活.在本文中,我们将探讨以下 ...
Python 中常见错误总结
IndentationError: unexpected indent Python 中强制缩进,, IndentationError: unexpected indent 缩进错误这类错误非常常见 ...
Python中的编码问题（encoding与decode、str与bytes）
1 引言在文件读写及字符操作时,我们经常会出现下面这几种错误: TypeError: write() argument must be str, not bytes AttributeError: ...
Windows下Python安装lxml
1.下载easy_install的安装包,下载地址:https://pypi.Python.org/pypi/setuptools 我是Windows7,所以直接下载Windows(Simplify) ...
Python中xPath技术和BeautifulSoup的使用
xpath基本知识 XPath语法:使用路径表达式来选取XML或HTML文档中的节点或节点集路径表达式 nodename:表示选取此节点的所有子节点 / : 表示从根节点选取 // :选择 ...
Python中的网络爬虫怎么用？
爬虫概述 (约2016年)网络爬虫个人使用和科研范畴基本不存在问题,但商业盈利范畴就要看对方了. 通过网站的Robots协议(爬虫协议)可以知道可以和不可以抓取的内容,其中User-Agent: 为允 ...
python中的线程锁
锁对象原始锁是一个在锁定时不属于特定线程的同步基元组件.在Python中,它是能用的最低级的同步基元组件,由 _thread 扩展模块直接实现. 原始锁处于 "锁定" 或者 &q ...

随机推荐

R基本画图
参考内容:闻博,R语言的绘图功能及应用案例 https://wenku.baidu.com/view/80f22fa50029bd64783e2c22.html R画图是以函数操作为基本的画图模式. ...
管道和xargs的区别
1.概念管道:将前一个命令的标准输出作为下一个命令的标准输入. xargs:将标准输入传递给下一个命令,作为其参数.(和管道连用)2.区别 2.区别 1:ls|cat是将ls的结果作为一个文件fil ...
12个提问频率最高的php面试题
你是否正在准备寻找一份PHP开发的工作,并且也在寻找一些关于PHP的面试题及答案?本文为大家分享了一些被提问频率最高的11个PHP面试题,以及对应的常规回答,每个公司都有自己的面试标准,面试和问题是完 ...
SpringBoot Mybatis 入门
Mybatis for Java API官方文档:http://www.mybatis.org/mybatis-3/zh/java-api.html Mybatis语法介绍 @Select 查询,所有 ...
Docker 配置代理
最近在k8s上部署helm 老提示无法下载镜像,因为伟大的祖国的长城Firewall....导致k8s根本玩不了..... 第一步:配置系统代理 # vim .bashrc export http_p ...
springmvc注解基本入门
简单介绍使用springmvc注解的基本流程. 1.在web.xml中配置DispatcherServlet <?xml version="1.0" encoding=&qu ...
Centos6.8安装Mysql5.7
1.下载 wget https://dev.mysql.com/get/mysql57-community-release-el6-9.noarch.rpm 2.安装用来配置mysql的yum源的rp ...
java中集合类详解
集合类说明及区别 Collection ├List │├LinkedList │├ArrayList │└Vector │ └Stack └Set Map ├Hashtable ├HashMap └W ...
Aix-Linux查看系统信息
1.查看内存.磁盘等使用情况命令:nmon 输入命令nmon之后,按M键memory,N键NetWork,J键查看目录使用情况. 2.查看防火墙命令:smit 输入之后按照图形化操作 Commun ...
codeforces 798C.Mike and gcd problem 解题报告
题目意思:给出一个n个数的序列:a1,a2,...,an (n的范围[2,100000],ax的范围[1,1e9] ) 现在需要对序列a进行若干变换,来构造一个beautiful的序列: b1,b2, ...

python中lxml的应用

python中lxml的应用的更多相关文章

随机推荐

热门专题