Python:lxml
学习自:
lxml官方文档——lxml中的类、方法使用,如果需要查看某些方法的具体用法,就到这个网页下
python爬虫系列--lxml(etree/parse/xpath)的使用
0、简介
lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,且效率很高。
功能:
①解析HTML:使用etree.HTML(text)将字符串格式的html片段解析成html文档;
②读取xml文件
③etree和XPath的配合使用,提取元素节点
1、etree
0)方法
| 方法(均需加etree.前缀) | 说明 |
| HTML(html_text) | 将字符串格式的文本转化为html文档格式 |
| XML(xml_text) | 将字符串格式的文本转化为xml文档格式 |
| to_string() | 以上两个方法转化后的文档格式并不能直接输出,该方法可以显示文档源码 |
| parse() |
应用语法解析器parser对对象进行解析;这里的对象可以是1)文件名/路径;2)文件对象;3)采用HTTP、FTP协议的URL; 返回一个ElementTree对象 |
1)etree.HTML(text)
作用:将字符串格式的文件转化为html文档
from lxml import etree
text = '''
<body>
<div>
<ul>
<li>01</li>
<li>02</li>
...
<li>06</li>
<li>07
</ul>
</div>
</body>
'''
html=etree.HTML(text) #将字符串格式的文件转化为html文档
print(html)
print('!!!!!!!!')
str=etree.tostring(html).decode()#tostring将html文档转化为二进制的字符串格式
#decode解码二进制,显示html源代码
print(str)
输出:
<Element html at 0x1a1ab4e4188> #直接输出html的结果
!!!!!!!!
<html><body>
<div>
<ul>
<li>01</li>
...
</ul>
</div>
</body>
</html>
代码解释:上文首先声明了一段HTML文本,调用HTML类进行初始化,这样就成功构造了一个XPath解析对象。这里需要注意的是,HTML文本最后一个li是没有闭合的,但是HTML方法可以自动修正为正确格式的HTML文本。
此时再调用tostring()方法就可以输出修正后的HTML代码,但是结果是bytes,需要利用decode()将之转换为string。
2)etree.parse
应用语法解析器对对象进行解析,常用于对html文件或HTTP URL,需指定解析器,返回一个XPath可解析对象
用法:
html=etree.parse('xxx.html',etree.HTMLParser())
3)xpath方法
用途:对以上两种方法提取到的解析对象进行XPath语法提取相关元素节点。
用法:
result=html.xpath('XPath路径表达式')
这里的XPath路径表达式的写法与之前所写完全相同,不再赘述。
提取结果为一个List,其中每一项都为从原始文本中提取到的要素项,访问时可以直接通过切片访问:
result[0]#第一个节点
.
.
.
result[-1]#最后一个节点
与Scrapy中的response.xpath方法相类比,可以认为这里的html.xpath就是response.xpath.extract的结果。
访问每一项时都是通过切片访问。
以上是使用lxml库进行XPath提取的一些基本知识点,由于很多内容已经在本博客XPath和Scrapy几节说过了,所以这里部分知识点知识简单说明。
使用lxml进行要素提取的一个基本流程总结:
from lxml import etree #提取待解析对象
html=etree.HTML(str)#将某个str解析为HTML对象
html=etree.parse('xxx.html',etree.HTMLParser())#将某个html文件或者网页解析为HTML对象
#从HTML对象中进行XPath提取
result=html.xpath('xpath路径表达式')
print(result[n])#输出第n项提取项
#如果要输出解析对象
str=etree.tostring(html).decode()
如果需要从一个网页提取信息,则需要向网页发送请求,对请求结果中的Text部分进行以上操作:
headers={
'User-Agent':'...'
}
response=requests.get(url,headers=headers)#由此得到了一个html对象
#待解析对象就保存在了response.text中
r=response.text
html=etree.HTML(r)
...#以下就和上一个代码接轨了
Python:lxml的更多相关文章
- Python之lxml
作者:Shane 出处:http://bluescorpio.cnblogs.com lxml takes all the pain out of XML. Stephan Richter lxml是 ...
- Python:渗透测试开源项目
Python:渗透测试开源项目[源码值得精读] sql注入工具:sqlmap DNS安全监测:DNSRecon 暴力破解测试工具:patator XSS漏洞利用工具:XSSer Web服务器压力测试工 ...
- Python:bs4的使用
概述 bs4 全名 BeautifulSoup,是编写 python 爬虫常用库之一,主要用来解析 html 标签. 一.初始化 from bs4 import BeautifulSoup soup ...
- Python:bs4中 string 属性和 text 属性的区别及背后的原理
刚开始接触 bs4 的时候,我也很迷茫,觉得 string 属性和 text 属性是一样的,不明白为什么要分成两个属性. html = '<p>hello world</p>' ...
- Windows下Python安装lxml
1.下载easy_install的安装包,下载地址:https://pypi.Python.org/pypi/setuptools 我是Windows7,所以直接下载Windows(Simplify) ...
- Python:使用threading模块实现多线程编程
转:http://blog.csdn.net/bravezhe/article/details/8585437 Python:使用threading模块实现多线程编程一[综述] Python这门解释性 ...
- Python:开发Sublime插件,方便PHP开发
Python:开发Sublime插件,方便PHP开发 背景 最近在学习PHP,开发环境选择了Sublime2,开发过程发现执行PHP程序非常不方便,需要自己在浏览器中输入路径以进行调试,这点不如Dre ...
- Python:高级主题之(属性取值和赋值过程、属性描述符、装饰器)
Python:高级主题之(属性取值和赋值过程.属性描述符.装饰器) 背景 学习了Javascript才知道原来属性的取值和赋值操作访问的“位置”可能不同.还有词法作用域这个东西,这也是我学习任何一门语 ...
- Python:Python学习总结
Python:Python学习总结 背景 PHP的$和->让人输入的手疼(PHP确实非常简洁和强大,适合WEB编程),Ruby的#.@.@@也好不到哪里(OO人员最该学习的一门语言). Pyth ...
随机推荐
- WEB前端基础之SCC(字体颜色背景-盒子模型)
目录 一:伪元素选择器 1.首字调整>>>:也是一种文档布局的方式 2.在文本的前面通过css动态渲染文本>>>:特殊文本无法选中 3.在文本的后面通过css动态渲 ...
- find直接copy大于某一个时间小于某一个时间的文件
find ./ -type f -newermt '2000-01-04 10:30:00' ! -newermt '2019-10-28 10:57:00' -exec cp -a {} /var/ ...
- Python 修改AD密码
前提条件: AD 已开启证书服务(最重要的一句话). import ldap3 SERVER = 'adserver' BASEDN = "DC=example,DC=com" U ...
- RSS生成工具/服务推荐
时至2022,关于碎片化阅读.信息焦虑的讨论仍在继续且似乎并没有形成广泛共识的解决办法.而研究生期间主要研究方向就是推荐系统且未来也大概率从事相关岗位的我,对以算法为中心的信息获取方式可以说是又爱又恨 ...
- python小兵之时间模块
Python 日期和时间 Python 程序能用很多方式处理日期和时间,转换日期格式是一个常见的功能. Python 提供了一个 time 和 calendar 模块可以用于格式化日期和时间. 时间 ...
- 随机IP代理插件Scrapy-Proxies
安装: pip install scrapy_proxies github: https://github.com/aivarsk/scrapy-proxies scrapy爬虫配置文件setti ...
- 短信发送器小案例 smsManager
总结实现步骤 (1)画 mainActivity页面 <LinearLayout xmlns:android="http://schemas.android.com/apk/r ...
- 浮动float、浮动影响和清除浮动
普通流(normal flow) 这个单词很多人翻译为 文档流 , 字面翻译 普通流 或者标准流都可以. 前面我们说过,网页布局的核心,就是用CSS来摆放盒子位置.如何把盒子摆放到合适的位置? CSS ...
- WJMZBMR(陈立杰)在成都赛区开幕式上的讲话
2013年10月19日 18:05:44 各位选手,各位教练,大家好,我是来自清华大学交叉信息学院的陈立杰,今天很荣幸站在这里代表全体参赛选手发言.对于我来说,这是我第一次正式参加ACM的比赛.不过我 ...
- sublime与python交互
点击菜单栏中的工具 -> 编译系统,勾选Python即可 创建hello.py文件,Ctrl+S保存文件,Ctrl+B执行文件,结果如下图 3.sublime运行python文件的交互环境设 ...