Python解析生成XML-ElementTree VS minidom
OS:Windows 7
关键字:Python3.4,XML,ElementTree,minidom
本文介绍用Python解析生成以下XML:
<Persons>
<Person>
<Name>LDL</Name>
<Description Language='English'><![CDATA[cdata text]]></Description>
</Person>
<Person>
<Name>China</Name>
<Description Language='English'><![CDATA[cdata text]]></Description>
</Person>
</Persons>
1.创建一个xml文件名为src.xml,内容如上,放到c:\temp
2.使用ElementTree读取src.xml,并创建一个内容相同的xml名为target-tree.xml。
ElementTreeSample.py如下:
# -*- coding: utf-8 -*-
"""
Sample of xml.etree.ElementTree @author: ldlchina
""" import os
import sys
import logging
import traceback
import xml.etree.ElementTree as ET
import time def copy_node(src_node, target_node):
# Copy attr
for key in src_node.keys():
target_node.set(key, src_node.get(key)) if len(list(src_node)) > 0:
for child in src_node:
target_child = ET.Element(child.tag)
target_node.append(target_child)
copy_node(child, target_child)
else:
target_node.text = src_node.text def read_write_xml(src, target):
tree = ET.parse(src)
root = tree.getroot() target_root = ET.Element(root.tag)
start_time = time.time() * 1000
copy_node(root, target_root)
end_time = time.time() * 1000
print('copy_node:' + str(end_time - start_time)) target_tree = ET.ElementTree(target_root)
target_tree.write(target)
logging.info(target) def main():
try:
current_file = os.path.realpath(__file__) # Configure logger
log_file = current_file.replace('.py', '.log')
logging.basicConfig(filename = log_file, filemode = 'w', level = logging.INFO) # Create console handler
ch = logging.StreamHandler()
ch.setLevel(logging.INFO) logger = logging.getLogger('')
logger.addHandler(ch) #src = sys.argv[1]
#target = sys.argv[2] # For debugging
src = 'C:/temp/src.xml'
target = 'C:/temp/target-tree.xml' # Generate results
start_time = time.time() * 1000
read_write_xml(src, target)
end_time = time.time() * 1000
print('read_write_xml:' + str(end_time - start_time))
except:
logging.exception(''.format(traceback.format_exc())) input('Press any key to exit...') main()
3.使用minidom读取src.xml,并创建一个内容相同的xml名为target-dom.xml。
MinidomSample.py如下:
# -*- coding: utf-8 -*-
"""
Sample of xml.dom.minidom @author: ldlchina
""" import os
import sys
import logging
import traceback
import xml.dom.minidom as MD
import time def get_text(n):
nodelist = n.childNodes
rc = ""
for node in nodelist:
if node.nodeType == node.TEXT_NODE or node.nodeType == node.CDATA_SECTION_NODE:
rc = rc + node.data
return rc def copy_node(target_doc, src_node, target_node):
if not isinstance(src_node, MD.Document) and src_node.hasAttributes():
for item in src_node.attributes.items():
target_node.setAttribute(item[0], item[1])
for node in src_node.childNodes:
if node.nodeType == node.TEXT_NODE:
target_child = target_doc.createTextNode(node.nodeValue)
target_node.appendChild(target_child)
elif node.nodeType == node.CDATA_SECTION_NODE:
target_child = target_doc.createCDATASection(node.nodeValue)
target_node.appendChild(target_child)
elif node.nodeType == node.ELEMENT_NODE:
target_child = target_doc.createElement(node.nodeName)
target_node.appendChild(target_child)
copy_node(target_doc, node, target_child) def read_write_xml(src, target):
doc = MD.parse(src)
target_doc = MD.Document() start_time = time.time() * 1000
copy_node(target_doc, doc, target_doc)
end_time = time.time() * 1000
print('copy_node: ' + str(end_time - start_time)) # Write to file
f = open(target, 'w')
f.write(target_doc.documentElement.toxml())
f.close()
logging.info(target) def main():
try:
current_file = os.path.realpath(__file__) # Configure logger
log_file = current_file.replace('.py', '.log')
logging.basicConfig(filename = log_file, filemode = 'w', level = logging.INFO) # Create console handler
ch = logging.StreamHandler()
ch.setLevel(logging.INFO) logger = logging.getLogger('')
logger.addHandler(ch) #src = sys.argv[1]
#target = sys.argv[2] # For debugging
src = 'C:/temp/src.xml'
target = 'C:/temp/target-dom.xml' # Generate results
start_time = time.time() * 1000
read_write_xml(src, target)
end_time = time.time() * 1000
print('read_write_xml: ' + str(end_time - start_time))
except:
logging.exception(''.format(traceback.format_exc())) input('Press any key to exit...') main()
4.运行ElementTreeSample.py,得到XML如下:
<Persons><Person><Name>LDL</Name><Description Language="English">cdata text</Description></Person><Person><Name>China</Name><Description Language="Chinese">cdata text</Description></Person></Persons>
5.运行MinidomSample.py,得到XML如下:
<Persons>
<Person>
<Name>LDL</Name>
<Description Language="English"><![CDATA[cdata text]]></Description>
</Person>
<Person>
<Name>China</Name>
<Description Language="Chinese"><![CDATA[cdata text]]></Description>
</Person>
</Persons>
ElementTree VS minidom:
1.ElementTree执行速度会比minidom快一些。
2.ElemenTree不能分析XML的转行和缩进。minidom可以。
3.ElemenTree不支持CDATA,minidom可以。
Python解析生成XML-ElementTree VS minidom的更多相关文章
- python 批量生成xml标记文件(连通域坐标分割)
#!/usr/bin/python # -*- coding=utf-8 -*- # author : Manuel # date: 2019-05-15 from xml.etree import ...
- xStream解析生成xml文件学习资料
参考链接: http://www.cnblogs.com/hoojo/archive/2011/04/22/2025197.html
- Python 解析构建数据大杂烩 -- csv、xml、json、excel
Python 可以通过各种库去解析我们常见的数据.其中 csv 文件以纯文本形式存储表格数据,以某字符作为分隔值,通常为逗号:xml 可拓展标记语言,很像超文本标记语言 Html ,但主要对文档和数据 ...
- python解析robot framework的output.xml,并生成html
一.背景 Jenkins自动构建RF脚本,生成的RF特有HTML报告不能正常打开. 需求:用Python解析测试报告的xml数据,放在普通HTML文件中打开 二.output.xml数据 三.用pyh ...
- 【Python】 xml解析与生成 xml
xml *之前用的时候也没想到..其实用BeautifulSoup就可以解析xml啊..因为html只是xml的一种实现方式吧.但是很蛋疼的一点就是,bs不提供获取对象的方法,其find大多获取的都是 ...
- Python 解析 XML 文件生成 HTML
XML文件result.xml,内容如下: <ccm> <metric> <complexity>1</complexity> <unit> ...
- python 解析与生成xml
xml.etree.ElementTree模块为xml文件的提取和建立提供了简单有效的API.下文中使用ET来代表xml.etree.ElementTree模块. XML是一种内在的分层的数据形式,展 ...
- python xml文件解析 及生成xml文件
#解析一个database的xml文件 """ <databaselist type="database config"> <dat ...
- python XML文件解析:用ElementTree解析XML
Python标准库中,提供了ET的两种实现.一个是纯Python实现的xml.etree.ElementTree,另一个是速度更快的C语言实现xml.etree.cElementTree.请记住始终使 ...
随机推荐
- el表达式跟ognl表达式的区别(转)
EL表达式: >>单纯在jsp页面中出现,是在四个作用域中取值,page,request,session,application.>>如果在struts环境中,它除了有在上面的 ...
- ajax 用xml传递数据
页面代码 <%@ Page Language="C#" AutoEventWireup="true" CodeFile="Index.aspx. ...
- 不同linux系统添加开机启动程序的命令
see http://phpcj.org/blog/%E4%B8%8D%E5%90%8Clinux%E7%B3%BB%E7%BB%9F%E6%B7%BB%E5%8A%A0%E5%BC%80%E6%9C ...
- 傲娇Android二三事之操蛋的开发日记(第一回)
武宗元年 十一月初四 霾 今日魔都,依旧仙雾环绕,仿佛蓬莱落凡尘.望着470这个鲜红的AQI修仙指数,贫道不禁吟道,“正是修仙好光景,雾霾时节又逢君”.但在这个只修bug,不修仙的时代,路上的行人都步 ...
- linux高级命令组合
ps -auxww | grep httpd 快速找到正在运行的apache服务安装目录 find / -path 'sina_app_v3*' 快速找到根目录下面的sina_app_v3目录 fi ...
- java常用的包的简介
java常用的包: java.lang:包含java语言的核心类,如String.math.system和thread类等,使用这个包下的类无需import导入,系统会自动导入这个包下的所有类. ...
- Android 开发中的屏幕适配技术详解
本文主要介绍Android开发中比较头疼繁琐的一个问题-屏幕适配问题.主要从适配原因.基本核心概念.适配方法等方面介详细 介绍从而是的深入或者进一步对Android屏幕适配技术的掌握和理解. 真题园网 ...
- Mysql-5.6乱码问题
1 参考:http://www.testwo.com/blog/6930 mysql数据库默认的编码是:Latin1,要想支持中文需要修改为gbk/utf8的编码格式. 1.以root管理员身份查 ...
- JAVA_Gson_example
package cn.kjxy.GSON; import java.util.List; import cn.kjxy.JSON.HttpHelpers; import com.google.gson ...
- [关于SQL]查询成绩都大于80分的学生
1.用一条SQL语句 查询出每门课都大于80分的学生姓名name kecheng fenshu张三 语文 81张三 数学 75李四 语文 76李四 数学 90王五 语文 81王五 数学 100王五 英 ...