python中的lxml模块
Python中自带了XML的模块,但是性能不太好,相比之下,LXML增加了很多实用的功能。
lxml中主要有两部分,
1) etree,主要可以用来解析XML字符串,
内部有两个对象,etree._ElementTree和etree._Element
etree.Element对象中包含的属性和方法:
属性:1)tag,返回该节点的名称:
print 'root.tag' 输出tag
2)text,设置该节点的文本:
root.text = 'hello world' 输出<root>hello world</root>
3)tail,在标签后边追加文本:
root.tail = 'hym' 输出<root>hello world</root>hym
方法:1)Element(string),创建一个Element对象:
root = etree.Element('root') 返回一个XML的节点,名称root
root = etree.Element('root', interesting='totally') 返回一个root节点,属性interesting = 'totally'
2) set(name,value),为已有的节点,添加属性,
root.set('hello', 'huhu') 增加一个属性hello = 'huhu'
3) get(string),返回属性值,
root.get('intersting') 返回‘totally’
4) keys(),返回所有的属性名,
root.keys() 返回interesting,hello
5) items(),返回字典,其中包含所有的属性,及其 value
for name,value in sorted(root.items()) 返回两对属性
6) 为该节点,添加子节点,
child1 = etree.SubElement(root, 'child')
7) 为该节点,删除子节点,
root.remove(child1)
8) getparent(),拿到父节点
child1.getparent().tag 返回root
etree允许,节点内部的子节点,认为是一个list,
print "len(root)" 返回root节点及其子节点的个数;
root.index(child2) 返回child2的索引值
child = root[0] 返回child1,允许索引访问
for child in root: 允许遍历
...
root.insert(0, etree.Element('child0')) 允许插入
root.append(etree.Element('child4')) 允许append
etree._Element对象是一颗xml的树,内部包含很多element的对象,
1)root.getroottree(),返回一个节点对应的树,root表示当前节点的tag,返回的是Tree类型的对象
2)getroot(),返回根节点,返回的是Element类型的对象
3)etree.ELementTree(root),从一个节点构建一颗tree,该节点,也就是根节点,
etree,Element和Tree类型的对象,都支持xpath的方法:
foo.xpath('//root')[0].tag
2) html,主要用来解析html,
etree.html(HTML)来解析html,并得到Element对象,也可以调用xpath来分析xml
xpath,可以实现节点和属性的快速查找:
xpath('//div[@attr = value]/text()') 返回该div节点,满足attr属性要求的,节点的文本
xpath('//div[@attr]/@attr') 返回该div节点,含有attr属性,的值


python中的lxml模块的更多相关文章
- 【Day3】5.Python中的lxml模块
import lxml.etree as le with open('edu.html','r',encoding='utf-8') as f: html = f.read() html_x = le ...
- Python中的random模块,来自于Capricorn的实验室
Python中的random模块用于生成随机数.下面介绍一下random模块中最常用的几个函数. random.random random.random()用于生成一个0到1的随机符点数: 0 < ...
- Python中的logging模块
http://python.jobbole.com/86887/ 最近修改了项目里的logging相关功能,用到了python标准库里的logging模块,在此做一些记录.主要是从官方文档和stack ...
- Python中的random模块
Python中的random模块用于生成随机数.下面介绍一下random模块中最常用的几个函数. random.random random.random()用于生成一个0到1的随机符点数: 0 < ...
- 浅析Python中的struct模块
最近在学习python网络编程这一块,在写简单的socket通信代码时,遇到了struct这个模块的使用,当时不太清楚这到底有和作用,后来查阅了相关资料大概了解了,在这里做一下简单的总结. 了解c语言 ...
- python中的StringIO模块
python中的StringIO模块 标签:python StringIO 此模块主要用于在内存缓冲区中读写数据.模块是用类编写的,只有一个StringIO类,所以它的可用方法都在类中.此类中的大部分 ...
- python中的select模块
介绍: Python中的select模块专注于I/O多路复用,提供了select poll epoll三个方法(其中后两个在Linux中可用,windows仅支持select),另外也提供了kqu ...
- Python中的re模块--正则表达式
Python中的re模块--正则表达式 使用match从字符串开头匹配 以匹配国内手机号为例,通常手机号为11位,以1开头.大概是这样13509094747,(这个号码是我随便写的,请不要拨打),我们 ...
- python中的shutil模块
目录 python中的shutil模块 目录和文件操作 归档操作 python中的shutil模块 shutil模块对文件和文件集合提供了许多高级操作,特别是提供了支持文件复制和删除的函数. 目录和文 ...
随机推荐
- php$_SERVER['SCRIPT_NAME']和__FILE__的区别
$_SERVER['SCRIPT_FILENAME'] -------> 当前执行程序的绝对路径及文件名__FILE__ ...
- 【软件测试】Junit入门
写在前面:本博客为本人原创,严禁任何形式的转载!本博客只允许放在博客园(.cnblogs.com),如果您在其他网站看到这篇博文,请通过下面这个唯一的合法链接转到原文! 本博客全网唯一合法URL:ht ...
- mvc 使用Newtonsoft.Json进行序列化json数据
mvc 使用Newtonsoft.Json进行序列化json数据 JsonResult 使用js 序列号化,先集成扩展.使用newtonsoft http://blog.csdn.net/zhang ...
- [skill] 补码
转载,写的很好!额,我的数学. 原文:https://www.douban.com/note/223507364/ 关于补码,看过一些书籍和网文,基本都是在“求反加一”的方法.步骤上反复强调,而对于补 ...
- 篮球游戏AI预研
参考文献: 1.体育竞技游戏的团队AI http://blog.csdn.net/skywind/article/details/44922877 2.
- kubernetes1.3搭建dns服务
https://xuxinkun.github.io/2016/07/22/kubernetes-dns/
- 使用Apache CXF根据wsdl文件生成代码
1.去官网下载,我用的是apache-cxf-2.5.10.zip 2.解压 3.通过命令行进入Apache CXF的bin目录,如我的目录是D:\BIS\axis2\apache-cxf-2.7.1 ...
- C# Asp.net Quartz.NET作业调度之创建、安装、卸载、调试windows服务的简单事例
一.创建windows服务 1.用VS创建windows服务,结果如下: 2.删除默认生成的Service1.cs文件,然后创建自己的服务文件(如:MyService),并修改Program.cs文件 ...
- python中由于中文路径引起的os.path.isfile(imgpath) == False问题
昨天在用python脚本处理文件的时候,遇到了题述问题,明明文件时存在的,但是在用os.path.isfile(imgpath) == False进行判断的时候总是成立,在一开始以为是正反斜杠wind ...
- python解析VOC的xml文件并转成自己需要的txt格式
在进行神经网络训练的时候,自己标注的数据集往往会有数据量不够大以及代表性不强等问题,因此我们会采用开源数据集作为训练,开源数据集往往具有特定的格式,如果我们想将开源数据集为我们所用的话,就需要对其格式 ...