python机器可读数据-XML

XML

XML是一门标记语言。也就是说，它具有包含格式化数据的文档结构。

XML文档本质上只是格式特殊的数据文件。

在XML文件中有两个位置可以保存数据值：2个标签之间，标签的属性。

导入XML数据

import xml.etree.ElementTree as ET

tree = ET.parse('data-text.xml')  #把整个XML对象保存在变量tree中

root = tree.getroot()             #getroot函数获得树的根元素

print(list(root))                 #变量root的所有方法和属性

这样就获得了data-text.xml 文件的根元素root，并把root变为列表形式。

得到：

[<Element 'QueryParameter' at 0x000000000D864908>, <Element 'QueryParameter' at 0x000000000D864A48>, <Element 'QueryParameter' at 0x000000000D864A98>, <Element 'QueryParameter' at 0x000000000D864AE8>, <Element 'QueryParameter' at 0x000000000D864B38>, <Element 'QueryParameter' at 0x000000000D864B88>, <Element 'Copyright' at 0x000000000D864BD8>, <Element 'Disclaimer' at 0x000000000D864CC8>, <Element 'Metadata' at 0x000000000D864D68>, <Element 'Data' at 0x000000000FCC9D68>]

其中Element后面引号中为根元素root的子元素。某些元素具有子元素（不是所有）。可以用find或findall利用标签搜索子元素。

import xml.etree.ElementTree as ET

tree = ET.parse('data-text.xml')  #把整个XML对象保存在变量tree中

root = tree.getroot()             #getroot函数获得树的根元素

data = root.find('Data')

print(data)

得到子元素data

<Element 'Data' at 0x000000000DA29A48>

得到列表形式data

print(list(data))

[<Element 'Observation' at 0x000000000DA29A98>, <Element 'Observation' at 0x000000000DA29DB8>, <Element 'Observation' at 0x000000000DA24138>, <Element 'Observation' at 0x000000000DA24458>, <Element 'Observation' at 0x000000000DA24778>, <Element 'Observation' at 0x000000000DA24A98>, <Element 'Observation' at 0x000000000DA24DB8>, <Element 'Observation' at 0x000000000DA1ED68>, <Element 'Observation' at 0x000000000DA1EC78>, <Element 'Observation' at 0x000000000DA1E958>, <Element 'Observation' at 0x000000000DA1E408>, <Element 'Observation' at 0x000000000DA1E368>, <Element 'Observation' at 0x000000000DA1BEA8>, <Element 'Observation' at 0x000000000DA1BC28> ]

Observation为data的子元素
事实上可以这样：

import xml.etree.ElementTree as ET

tree = ET.parse('data-text.xml')  #把整个XML对象保存在变量tree中

root = tree.getroot()             #getroot函数获得树的根元素

data = root.find('Data')

for i in data:                   #data中每一个元素i

    for ii in i:                #每一个元素i中的每一个元素ii

        print(ii.attrib)        #字典形式ii

        print(ii.text)          #2个标签之间的文本，没有则None

Kazil J, Jarmul K. Data Wrangling with Python[J]. 2016.

python机器可读数据-XML的更多相关文章

用 ElementTree 在 Python 中解析 XML
用 ElementTree 在 Python 中解析 XML 原文: http://eli.thegreenplace.net/2012/03/15/processing-xml-in-python- ...
python标准库xml.etree.ElementTree的bug
使用python生成或者解析xml的方法用的最多的可能就数python标准库xml.etree.ElementTree和lxml了,在某些环境下使用xml.etree.ElementTree更方便一些 ...
在python中处理XML
XML是实现不同语言或程序之间进行数据交换的协议,XML文件格式如下: <data> <country name="Liechtenstein"> < ...
[python标准库]XML模块
1.什么是XML XML是可扩展标记语言(Extensible Markup Language)的缩写,其中的标记(markup)是关键部分.您可以创建内容,然后使用限定标记标记它,从而使每个单词. ...
python专题-读取xml文件
关于python读取xml文章很多,但大多文章都是贴一个xml文件,然后再贴个处理文件的代码.这样并不利于初学者的学习,希望这篇文章可以更通俗易懂的教如何使用python 来读取xml 文件. 什么是 ...
python模块：xml
"""Core XML support for Python. This package contains four sub-packages: dom -- The W ...
【304】python专题-读取xml文件
参考:XML DOM 参考手册(w3school) 参考:python专题-读取xml文件参考:请问用python怎么修改xml的节点值? 1. 读取标签内的文本(Python) 如下的 xml 文 ...
Python模块 shelve xml configparser hashlib
常用模块1. shelve 一个字典对象模块自动序列化2.xml 是一个文件格式写配置文件或数据交换 <a name="hades">123</a>3. ...
python模块(shelve,xml,configparser,hashlib,logging)
1.1shelve模块 shelve 模块比pickle模块简单,只有一个open函数,返回类似字典对象,可读可写:key必须为字符串, 而值可以是python所支持的数据类型. shelve模块主要 ...

随机推荐

ajax的一些相关
1.AJAX = Asynchronous(异步的) JavaScript and XML AJAX是能不刷新整个网页的前提下,更新内容.通过少量的数据交换,达成局部页面刷新的效果. 而form表单提 ...
P4116 Qtree3
思路可以树剖可以LCT,树剖就是每个重链开一个SET维护一下黑点的深度非常不优美使用LCT,在splay上二分找出需要的节点即可代码 #include <cstdio> #incl ...
P3321 [SDOI2015]序列统计
思路首先有个挺显然的DP \[ dp[i][(j*k)\%m]+=dp[i-1][j]\times dp[i-1][k] \] 想办法优化这个DP 这个dp也可以写成这样 \[ dp[i][j]=\ ...
eval()和JSON.parse()的区别
我们将一个josn字符串解析为对象的时可以使用两种方法: 假设有一个json字符串: '{ "student" : [ {}, {}, {} ] }' 然后解析为对象: 1.eva ...
【python 3】函数进阶
函数进阶 1.函数命名空间和作用域命名空间一共分为三种: 全局命名空间局部命名空间内置命名空间 *内置命名空间中存放了python解释器为我们提供的名字:input , print , str ...
krpano 常用标签
<krpano></krpano>根标签相当于 <body> <scene></scene>一个全景图场景 <image> 图 ...
HBase Block Cache（块缓存）
Block Cache HBase提供了两种不同的BlockCache实现,用于缓存从HDFS读出的数据.这两种分别为: 默认的,存在于堆内存的(on-heap)LruBlockCache 存在堆外内 ...
java.nio.file.NoSuchFileException
springboot +es es 2.1.0 参考这个 https://www.cnblogs.com/yueshutong/p/9381543.html cluster-nodes :改成127. ...
python 读取excel文件
方法一:利用pandas import pandas as pd inputfile_1 = "F:\\大论文实验\\福贡县数据\\贫困人口数据_2015.xlsx" data1 ...
Matlab的BP神经网络工具箱及其在函数逼近中的应用
1.神经网络工具箱概述 Matlab神经网络工具箱几乎包含了现有神经网络的最新成果,神经网络工具箱模型包括感知器.线性网络.BP网络.径向基函数网络.竞争型神经网络.自组织网络和学习向量量化网络.反馈 ...

python机器可读数据-XML

XML

导入XML数据

python机器可读数据-XML的更多相关文章

随机推荐

热门专题