python-minidom模块【解析xml】
1,xml的文档结构
1.1,XML文档包括XML头信息和XML信息体
1.1.1,XML文档头信息
- <?xml version="1.0" encoding="utf-8"?>
它表明了此XML文档所用的版本,编码方式。有些复杂的还有一些文档类型的定义(DOCTYPE),用于定义此XML文档所用的DTD或Schema和一些实体的定义。
1.1.2,XML文档信息体
- <Table>
- <Name>
- tbl_test
- </Name>
- <Comment>
- This ia a test table
- </Comment>
- <Schema format="Json">
- </Schema>
- </Table>
XML信息体是由树状元素组成。每个XML文档都有一个文档元素,也就是树的根元素,所有其它的元素和内容都包含在根元素中。
DOM是Document Object Model的简称,它是以对象树来表示一个XML文档的方法,使用它的好处就是你可以非常灵活的在对象中进行遍历。
2,minidom模块读取XML
按照我的理解,在获得XML文档树的根节点后,实际上分为两种节点【这里测试只用到这两种节点,实际按照nodeType知道还有其他很多】:元素节点(ELEMENT NODE)和文本节点(TEXT NODE)。元素节点如上面的Name标签,整个就是一个元素节点。文本节点如上面的tbl_test,也作为一个节点,即文本节点。
节点都具有这样三种属性;
| node.nodeName | nodeName为结点名字 |
| node.nodeValue | nodeValue是结点的值,只对文本结点有效 |
| node.nodeType | nodeType是结点的类型 |
元素节点(ELEMENT NODE)可以用root.getElementsByTagName("Table")这样来获取以Table标签的一个列表。
文本节点(TEXT NODE) 可以用column.getAttribute('Name')这样来获取Name的这样一个属性值。属性指的是: <Column Name="pt" Value="1"/>这样的结构。可以使用node.data或者node.nodeValue来获取文本值。
2.1,得到dom对象
从xml文件得到dom对象
- >>> import xml.dom.minidom
- >>> dom = xml.dom.minidom.parse('d:/catalog.xml')
从xml字符串得到dom对象
- >>> import xml.dom.minidom
- >>> dom = xml.dom.minidom.parseString(xmlstring)
2.2,得到文档元素对象
- >>> root = dom.documentElement
3,测试
3.1,实验1
- <?xml version="1.0" encoding="UTF-8"?>
- <Table>
- <Name>
- tbl_test
- </Name>
- <Comment>
- This ia a test table
- </Comment>
- <Schema format="Json">
- </Schema>
- </Table>
- dom = parseString(string1)
- #root = dom.documentElement
- table = dom.getElementsByTagName( "Table" )[0]
- name = table.getElementsByTagName( "Name" )[0]
- for textNode in name.childNodes:
- print textNode.data
- print textNode.nodeValue
1,dom获得的是整个xml对象
2,【未运行】root获得的整个文档对象,如果执行了,实际上得到的是根节点唯一的标签<Table></Table>下的东西,如果有多个<Table></Table>,估计会忽略,默认把第一个当成根。
3,root.getElementsByTagName( "Table" )将获得所有<Table></Table>标签对,这是一个类似于列表的东西,可以用列表方法获取。因为这里就一个<Table></Table>标签,所以直接[0]返回这个单独的对象。
4,table获得的是真正的单个的其中的<table></Table>对象。
5,table.getElementsByTagName( "Name" )同样获得的是一个[<Name></Name>,...,<Name></Name>]这样的列表。
6,name获得的是单个的现在仅有的<Name></Name>对象。
7,由于name下面是文本节点tbl_test。虽然只有一个,但可以有多个。此时,前述的都是元素节点,Name标签下都是文本节点了,可以用name.childNodes获得文本节点列表,注意,还是列表。
8,textNode是其中的唯一的一个tbl_test。
9,因为是文本节点,所有有data属性。当然其,node.nodeValue也可以读到。
3.2,实验2
- <?xml version="1.0" encoding="UTF-8"?>
- <Partitions>
- <Partition>
- <Column Name="pt" Value="1"/>
- </Partition>
- </Partitions>
- dom = parseString(string2)
- #root = dom.documentElement
- partitions = dom.getElementsByTagName("Partitions")[0]
- partition = partitions.getElementsByTagName("Partition")[0]
- column = partition.getElementsByTagName("Column")[0]
- print column.getAttribute('Name')
1,dom获得的是整个xml对象
2,【未运行】root获得的整个文档对象,如果执行了,实际上得到的是根节点唯一的标签<Table></Table>下的东西,如果有多个<Partitions></Partitions>,估计会忽略,默认把第一个当成根。
3,root.getElementsByTagName( "Partitions" )将获得所有<Partitions></Partitions>标签对,这是一个类似于列表的东西,可以用列表方法获取。因为这里就一个<Partitions></Partitions>标签,所以直接[0]返回这个单独的对象。
4,partitions获得的是真正的单个的其中的<Partitions></Partitions>对象。
5,partitions.getElementsByTagName( "Partition" )同样获得的是一个[<Partition></Partition>,...,<Partition></Partition>]这样的列表。
6,partition获得的是单个的现在仅有的<Partition></Partition>对象。
7,column以同样方式获取到单个的<Column></Column>对象
8,由于Name是Column的一个属性,所以用column.getAttribute('Name')来获取这个属性值
3.3,实验3
- string1='''<?xml version="1.0" encoding="UTF-8"?>
- <Table>
- <Name>
- tbl_test
- </Name>
- <Comment>
- <Name>
- gexing
- </Name>
- This ia a test table
- </Comment>
- <Schema format="Json">
- </Schema>
- <Name>
- dandan
- </Name>
- </Table>
- '''
- dom = parseString(string1)
- root = dom.documentElement
- names = root.getElementsByTagName("Name")
- for name in names:
- for child in name.childNodes:
- print child.nodeValue
输出:
- [admin@r42h06016.xy2.aliyun.com]$python test.py
- tbl_test
- gexing
- dandan
注意点1,空行是因为实际上要的xml是无空格的内容。
注意点2,说明用getElementsByTagName得到的list是遍历所有“节点”,然后不管哪个层次,遇到一个符合的就会加进来。如果没有文本信息,就输出None。
3.4,简单函数
对于简单的元素,如:<caption>Python</caption>,我们可以编写这样一个函数来得到它的内容(这里为Python)。
- def getTagText(root, tag):
- node = root.getElementsByTagName(tag)[0]
- rc = ""
- for node in node.childNodes:
- if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):
- rc = rc + node.data
- return rc
4,xml.etree.ElementTree模块读xml
- import xml.etree.ElementTree
- content = xml.etree.ElementTree.fromstring(string1)
- name = content.findall('Name')#找到所有的Name的列表
- name = content.findtext('Name')#找到下一层的Name节点
python-minidom模块【解析xml】的更多相关文章
- Python requests模块解析XML
检查QQ是否在线(api感觉不准) import requests from xml.etree import ElementTree qq_str = input('please input the ...
- python 之模块之 xml.dom.minidom解析xml
# -*- coding: cp936 -*- #python 27 #xiaodeng #python 之模块之 xml.dom.minidom解析xml #http://www.cnblogs.c ...
- python XML文件解析:用xml.dom.minidom来解析xml文件
python解析XML常见的有三种方法: 一是xml.dom.*模块,是W3C DOM API的实现,若需要处理DOM API则该模块很合适, 二是xml.sax.*模块,它是SAX API的实现,这 ...
- python常用模块之xml模块
python常用模块之xml模块 xml是实现不同语言或程序之间进行数据交换的协议,跟json差不多,但json使用起来更简单,不过,在json还没诞生的年代,大家都是使用xml,目前很多传统公司的系 ...
- Python minidom模块(DOM写入和解析XML)
一.DOM写XML文件 #导入minidom from xml.dom import minidom # 1.创建DOM树对象 dom=minidom.Document() # 2.创建根节点.每次都 ...
- python xml.dom模块解析xml
1. 什么是xml?有何特征? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 例子:del.xml <?xml version=&q ...
- [python]使用ElementTree解析XML【译】
19.7 The ElementTree XML API 源码:Lib/xml/etree/ElementTree.py Element类型是一个灵活的容器对象,设计出来是用于存储有层次的数据结构到内 ...
- ZH奶酪:Python使用ElementTree解析XML【译】
19.7. xml.etree.ElementTree — The ElementTree XML API 源代码: Lib/xml/etree/ElementTree.py Element类型是一种 ...
- python练习三—解析xml
使用python解析xml,主要使用sax的ContentHandler中的标签开始和标签结束的方法驱动,然后在开始(或者结束)事件中决定使用什么处理方法,使用dispatcher来决定并分发到指定方 ...
- python使用SAX解析xml
python 标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件 在python中使用sax方式处理xml要先引入xml.s ...
随机推荐
- 利用图片中的exif元数据批量查找图片中所包含的GPS信息
在图片的exif(交换图像文件格式)中标准定义了如何存储图像和音频文件的标准,而在这些标签中往往存在了一些容易被人们忽视却又重要的东西. 有一款工具名为exiftool,可以快速的解析所有标签,并将结 ...
- HDU 4532 湫秋系列故事——安排座位 (组合+DP)
湫秋系列故事——安排座位 Time Limit: 20000/10000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others)To ...
- CentOS 7.0关闭默认firewall防火墙启用iptables防火墙
操作系统环境:CentOS Linux release 7.0.1406(Core) 64位CentOS 7.0默认使用的是firewall作为防火墙,这里改为iptables防火墙步骤. 1.关闭f ...
- mvc 模型验证及正则表达式
ASP.NET MVC3中的Model是自验证的,这是通过.NET4的System.ComponentModel.DataAnnotations命名空间完成的. 我们要做的只是给Model类的各属性加 ...
- 【javascript】js实现复制、粘贴
使用document.ExecCommand("copy")命令,官方文档,点我. 例如: <!DOCTYPE html> <html> <head& ...
- rhel 7 设置默认运行级别为图形
查看默认级别 # systemctl get-default multi-user.target # cat /etc/inittab # inittab is no longer used when ...
- FreeSWITCH快速录音
一.背景 测试人员反映FreeSWITCH录音不及时,需要大约5秒的时间才能捕获到RTP流. 二.原因及解决 查了下资料,FreeSWITCH默认的录音参数配置是开启缓冲的, 即RTP流大小到达655 ...
- Android开发之AsyncTask的使用
Android API 3时引进了AsyncTask,也叫异步任务.使用它可以很方便的更新主线程中的UI,使用它比Handler.Thread更简单.由于AsyncTask是抽象类,要使用它首先要创建 ...
- [转]Greenplum的工作负载及资源管理
工作负载及资源管理 查询分析-查看EXPLAIN输出 EXPLAIN输出一个计划为节点组成的树 每个节点表示一个独立的操作 计划应该从下向上读,每个节点得到的记录向上传递 成本评估项: cost - ...
- django -- 对行的更新只有在save调用后才会入库
python3 manage.py shell Python 3.6.2 (v3.6.2:5fd33b5926, Jul 16 2017, 20:11:06) [GCC 4.2.1 (Apple In ...