xml dom minidom

一. xml相关术语:

1.Document(文档): 对应一个xml文件

2.Declaration(声明):

<?xml version="1.0" encoding="utf-8"?>

version指定了版本,encoding指定了文件编码

3.Comment（注释），同html中的注释

<!--just a comment about book_store-->

4.Element（元素）:指的是从（且包括）开始标签直到
（且包括）结束标签的部分，如<book_store></book_store>

<book_store name="newhua" website="https://www.amazon.cn/b?node=1876097071">

    <book1>

        <name>hamlet</name>

        <author>William Shakespeare</author>

    </book1>

</book_store>

5.Tag(标签): 用于表示素的起始与结束，如book1,name,author等

6.Attribute(属性),如上面的name,website

7.Text(文本),如hamelt

二.解析xml

有三种方法

from xml.dom.minidom import parse,parseString

dom1 = parse('test.xml')  #通过文件名解析xml

data = open('test.xml')

dom2 = parse(data)  #通过解析已打开的xml文件

note = """

<note>

<to>Peter</to>

<from>Jane</from>

<heading>Reminder</heading>

<body>Don't be late for the meeting</body>

</note>

"""

dom3 = parseString(note)  #解析字符串

2.得到根元素

doc = parse('test.xml')  #通过文件名解析xml

root = doc.documentElement

三.创建xml

from xml.dom.minidom import Document

doc = Document()  #创建一篇空的文档

from xml.dom.minidom import getDOMImplementation

impl = getDOMImplementation()

#创建doc，并且添加根节点book_store

doc = impl.createDocument(None,"book_store",None)

print(doc.documentElement.tagName)  #book_store

#doc同doc=Document()

doc2 = impl.createDocument(None,None,None)

四.类及层次结构

可以发现：Element,Text,Comment,Attribute的创建工作全部由Document完成，然后通过appendChild或insertBefore方法将新的对象插入到Document中。

五.具体操作

1.解析xml文件

movies.xml

<collection shelf="New Arrivals">

<movie title="Enemy Behind">

   <type>War, Thriller</type>

   <format>DVD</format>

   <year>2003</year>

   <rating>PG</rating>

   <stars>10</stars>

   <description>Talk about a US-Japan war</description>

</movie>

<movie title="Transformers">

   <type>Anime, Science Fiction</type>

   <format>DVD</format>

   <year>1989</year>

   <rating>R</rating>

   <stars>8</stars>

   <description>A schientific fiction</description>

</movie>

   <movie title="Trigun">

   <type>Anime, Action</type>

   <format>DVD</format>

   <episodes>4</episodes>

   <rating>PG</rating>

   <stars>10</stars>

   <description>Vash the Stampede!</description>

</movie>

<movie title="Ishtar">

   <type>Comedy</type>

   <format>VHS</format>

   <rating>PG</rating>

   <stars>2</stars>

   <description>Viewable boredom</description>

</movie>

</collection>

代码:

import xml.dom.minidom

from xml.dom.minidom import parse

#使用minidom解析器打开xml文档

tree = xml.dom.minidom.parse('movies.xml')

#print(type(tree)) #<class 'xml.dom.minidom.Document'>

collection = tree.documentElement  #获取文档根元素

if collection.hasAttribute('shelf'):

    print("root element attribute:",collection.getAttribute("shelf"))

#print(collection.getAttribute('shelf'))  #获取属性

movie_list = collection.getElementsByTagName('movie')

movie_info_list = []

for movie in movie_list:

    print('******Movie*****')

    if movie.hasAttribute("title"):

        title = movie.getAttribute('title')

        print('Title',title)

    type = movie.getElementsByTagName('type')[0].childNodes[0].data

    format = movie.getElementsByTagName('format')[0].childNodes[0].data

    rating = movie.getElementsByTagName("rating")[0].firstChild.data

    stars = movie.getElementsByTagName('stars')[0].firstChild.data

    description = movie.getElementsByTagName("description")[0].firstChild.data

    print("type: ", type)

    print("format: ", format)

    print("rating: ", rating)

    print("stars: ", stars)

    print('description: ', description)

2.写xml文件

效果:

<?xml version="1.0" encoding="utf-8"?>

<!--just a comment about book_store-->

<book_store name="amzon" website="https://www.amazon.cn/b?node=1876097071">

    <book1>

        <name>hamlet</name>

        <author>William Shakespeare</author>

    </book1>

</book_store>

代码:

from xml.dom.minidom import Document

doc = Document()

　comment = doc.createComment('just a comment about book_store') #添加注释
doc.appendChild(comment)

# from xml.dom.minidom import getDOMImplementation

# impl = getDOMImplementation()

# doc = impl.createDocument(None, None, None)

book_store = doc.createElement('book_store')  # 创建根节点

book_store.setAttribute('name', 'amazon')  #设置属性

book_store.setAttribute('website', 'https://www.amazon.cn/b?node=1876097071')

doc.appendChild(book_store)  #添加节点

book1 = doc.createElement('book1') #创建元素book1

book1_name = doc.createElement('name')

book1_name_value = doc.createTextNode('hamlet')  #创建text节点

book1_name.appendChild(book1_name_value)

book1_author = doc.createElement('author')

book1_author_value = doc.createTextNode('William Shakespeare')

book1_author.appendChild(book1_author_value)

book1.appendChild(book1_name)

book1.appendChild(book1_author)

book_store.appendChild(book1)

print(doc.toprettyxml(indent='\t', newl='\n', encoding='utf-8').decode('utf-8'))

# with open('book_store.xml','wb') as f:  #写入的数据是bytes类型，所以wb方法写入

#     data = doc.toprettyxml(indent='\t', newl='\n', encoding='utf-8') #bytes类型数据

#     f.write(data)

with open('test_store.xml', 'w') as f:

    doc.writexml(f, indent='\t', newl='\n', encoding='utf-8') #写入的是str类型数据,所以w方法写入

3.简单封装

class MyXMLGenerator:

    def __init__(self,xml_name):

        self.xml_name = xml_name

        self.doc = xml.dom.minidom.Document()

    def createComment(self,value):

        c = self.doc.createComment(value)

        self.doc.appendChild(c)

    def setNodeAttribute(self,node,attname,value):

        node.setAttribute(attname,value)

    def createElement(self,tagName):

        ele = self.doc.createElement(tagName)

        return ele

    def appendChild(self,node,parent_node=None):

        if parent_node is not None:

            parent_node.appendChild(node)

        else:

            self.doc.appendChild(node)

    def setNodeValue(self,node,value):

        text_node = self.doc.createTextNode(value)

        node.appendChild(text_node)

    def genXML(self):

        #print(self.doc.toprettyxml(indent='\t',newl='\n',encoding='utf-8').decode('utf-8'))

        with open(self.xml_name,'wb') as f:

            data = self.doc.toprettyxml(indent='\t',newl='\n',encoding='utf-8') #python3中二进制数据

            f.write(data)

参考:

https://docs.python.org/3/library/xml.dom.minidom.html

https://docs.python.org/3/library/xml.dom.html

xml dom minidom的更多相关文章

python 应用xml.dom.minidom读xml
xml文件 <?xml version="1.0" encoding="utf-8"?> <city> <name>上海&l ...
python模块：xml.dom.minidom
"""Simple implementation of the Level 1 DOM. Namespaces and other minor Level 2 featu ...
python XML文件解析：用xml.dom.minidom来解析xml文件
python解析XML常见的有三种方法: 一是xml.dom.*模块,是W3C DOM API的实现,若需要处理DOM API则该模块很合适, 二是xml.sax.*模块,它是SAX API的实现,这 ...
python 之模块之 xml.dom.minidom解析xml
# -*- coding: cp936 -*- #python 27 #xiaodeng #python 之模块之 xml.dom.minidom解析xml #http://www.cnblogs.c ...
Python3使用xml.dom.minidom和xml.etree模块儿解析xml文件，封装函数
总结了一下使用Python对xml文件的解析,用到的模块儿如下: 分别从xml字符串和xml文件转换为xml对象,然后解析xml内容,查询指定信息字段. from xml.dom.minidom im ...
python xml.dom模块解析xml
1. 什么是xml?有何特征? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 例子:del.xml <?xml version=&q ...
Python使用xml.dom解析xml
在菜鸟教程上找了个关于电影信息的xml类型的文档,用python内置的xml.dom来解析提取一下信息. 先复习一下xml概念: XML 指可扩展标记语言(EXtensible Markup Lang ...
python 解析XML python模块xml.dom解析xml实例代码
分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...
htm Dom对象与 Xml Dom对象的理解
html 是基于Xml的文档规范.是一种特殊的xml文档,这一点很重要 1.xml 文档的操作,java,c#,...各种语言都提供了很好的api对文档进行解析,操作.当然js 也不例外,提供了一系列 ...

随机推荐

Python & PyCharm & Django 搭建web开发环境（续）
由于Django自带轻量级的server,因此在前篇博文中,默认使用该server,但实际生产中是不允许这么干的,生产环境中通常使用Apache Httpd Server结合mod_wsgi.so来做 ...
Python sqlalchemy使用
import sqlalchemy from sqlalchemy import create_engine from sqlalchemy.ext.declarative import declar ...
用正则表达式输出rdf文档的三元组格式数据
占个位置 1.输出所有尖括号里的内容 package com.jena; import java.io.BufferedReader; import java.io.FileReader; impor ...
Maven入门-3.pom文件和settings文件
1.pom.xml文件介绍2.settings.xml文件介绍 1.pom.xml文件介绍 Maven项目的核心是pom.xml,pom(Project Object Model项目对象模型) pom ...
1.4 C++内联函数（inline）
参考:http://www.weixueyuan.net/view/6330.html C++语言新增关键字 inline,用于将一个函数声明为内联函数.在程序编译时,编译器会将内联函数调用处用函数体 ...
bjui的validate表单验证的使用
date-rule ="date" 表示格式为yyyy-MM-dd date-rule = "datetime" 表示格式为yyyy-MM-dd HH:mm:s ...
Windows8连接网络后自动弹出Bing解决方法
Windows8 网络连接速度很快( ADSL ),但是连接之后总是会打开 Bing,这是很烦人的一件事,因为你连接网络可能并不想打开浏览器,甚至,你讨厌 Bing. 我也一直被这个问题困扰了很久,用 ...
电脑同时安装python2和python3, 如何实现切换使用
由于历史原因,Python有两个大的版本分支,Python2和Python3,又由于一些库只支持某个版本分支,所以需要在电脑上同时安装Python2和Python3,因此如何让两个版本的Python兼 ...
离线使用Visual Studio的Javascript Prettier插件
用Prettier插件来格式化Javascript代码效果好的不得了,简直是强迫症的救命克星,可惜单位的电脑是不联网的,始终用不了,今天抽空研究了一下,找到办法了. 1.下载JavaScript Pr ...
webbench源码学习-->命令行选项解析函数getopt和getopt_long函数
对于webbench这个网站压力测试工具网上介绍的很多,有深度详解剖析的,对于背景就不在提了, 听说最多可以模拟3万个并发连接去测试网站的负载能力,这里主要是学习了一下它的源码,做点笔记. 官方介绍 ...

xml dom minidom

xml dom minidom的更多相关文章

随机推荐

热门专题