0、简介

lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，且效率很高。

功能：

①解析HTML：使用etree.HTML(text)将字符串格式的html片段解析成html文档；

②读取xml文件

③etree和XPath的配合使用，提取元素节点

1、etree

0）方法

方法（均需加etree.前缀）	说明
HTML(html_text)	将字符串格式的文本转化为html文档格式
XML(xml_text)	将字符串格式的文本转化为xml文档格式
to_string()	以上两个方法转化后的文档格式并不能直接输出，该方法可以显示文档源码
parse()	应用语法解析器parser对对象进行解析；这里的对象可以是1）文件名/路径；2）文件对象；3）采用HTTP、FTP协议的URL；返回一个ElementTree对象

1）etree.HTML(text)

作用：将字符串格式的文件转化为html文档

from lxml import etree

text = '''

    <body>

        <div>

            <ul>

                <li>01</li>

                <li>02</li>

　　　　　　　　　　...

                <li>06</li>

                <li>07

            </ul>

        </div>

    </body>

    '''

html=etree.HTML(text) #将字符串格式的文件转化为html文档

print(html)

print('!!!!!!!!')

str=etree.tostring(html).decode()#tostring将html文档转化为二进制的字符串格式
　　　　　　　　　　　　　　　　　　　　#decode解码二进制，显示html源代码

print(str)

输出：

<Element html at 0x1a1ab4e4188> #直接输出html的结果

!!!!!!!!

<html><body>

        <div>

            <ul>

                <li>01</li>

                ...

            </ul>

        </div>

    </body>

    </html>

代码解释：上文首先声明了一段HTML文本，调用HTML类进行初始化，这样就成功构造了一个XPath解析对象。这里需要注意的是，HTML文本最后一个li是没有闭合的，但是HTML方法可以自动修正为正确格式的HTML文本。

此时再调用tostring()方法就可以输出修正后的HTML代码，但是结果是bytes，需要利用decode()将之转换为string。

2）etree.parse

应用语法解析器对对象进行解析，常用于对html文件或HTTP URL，需指定解析器，返回一个XPath可解析对象

用法：

html=etree.parse('xxx.html',etree.HTMLParser())

3）xpath方法

用途：对以上两种方法提取到的解析对象进行XPath语法提取相关元素节点。

用法：

result=html.xpath('XPath路径表达式')

这里的XPath路径表达式的写法与之前所写完全相同，不再赘述。

提取结果为一个List，其中每一项都为从原始文本中提取到的要素项，访问时可以直接通过切片访问：

result[0]#第一个节点

.

.

.

result[-1]#最后一个节点

与Scrapy中的response.xpath方法相类比，可以认为这里的html.xpath就是response.xpath.extract的结果。

访问每一项时都是通过切片访问。

以上是使用lxml库进行XPath提取的一些基本知识点，由于很多内容已经在本博客XPath和Scrapy几节说过了，所以这里部分知识点知识简单说明。

使用lxml进行要素提取的一个基本流程总结：

from lxml import etree

#提取待解析对象

html=etree.HTML(str)#将某个str解析为HTML对象

html=etree.parse('xxx.html',etree.HTMLParser())#将某个html文件或者网页解析为HTML对象




#从HTML对象中进行XPath提取

result=html.xpath('xpath路径表达式')

print(result[n])#输出第n项提取项

#如果要输出解析对象
str=etree.tostring(html).decode()

如果需要从一个网页提取信息，则需要向网页发送请求，对请求结果中的Text部分进行以上操作：

headers={

    'User-Agent':'...'

}

response=requests.get(url,headers=headers)#由此得到了一个html对象

#待解析对象就保存在了response.text中

r=response.text

html=etree.HTML(r)

...#以下就和上一个代码接轨了

Python：lxml的更多相关文章

Python之lxml
作者:Shane 出处:http://bluescorpio.cnblogs.com lxml takes all the pain out of XML. Stephan Richter lxml是 ...
Python：渗透测试开源项目
Python:渗透测试开源项目[源码值得精读] sql注入工具:sqlmap DNS安全监测:DNSRecon 暴力破解测试工具:patator XSS漏洞利用工具:XSSer Web服务器压力测试工 ...
Python：bs4的使用
概述 bs4 全名 BeautifulSoup,是编写 python 爬虫常用库之一,主要用来解析 html 标签. 一.初始化 from bs4 import BeautifulSoup soup ...
Python：bs4中 string 属性和 text 属性的区别及背后的原理
刚开始接触 bs4 的时候,我也很迷茫,觉得 string 属性和 text 属性是一样的,不明白为什么要分成两个属性. html = '<p>hello world</p>' ...
Windows下Python安装lxml
1.下载easy_install的安装包,下载地址:https://pypi.Python.org/pypi/setuptools 我是Windows7,所以直接下载Windows(Simplify) ...
Python：使用threading模块实现多线程编程
转:http://blog.csdn.net/bravezhe/article/details/8585437 Python:使用threading模块实现多线程编程一[综述] Python这门解释性 ...
Python：开发Sublime插件，方便PHP开发
Python:开发Sublime插件,方便PHP开发背景最近在学习PHP,开发环境选择了Sublime2,开发过程发现执行PHP程序非常不方便,需要自己在浏览器中输入路径以进行调试,这点不如Dre ...
Python：高级主题之（属性取值和赋值过程、属性描述符、装饰器）
Python:高级主题之(属性取值和赋值过程.属性描述符.装饰器) 背景学习了Javascript才知道原来属性的取值和赋值操作访问的“位置”可能不同.还有词法作用域这个东西,这也是我学习任何一门语 ...
Python：Python学习总结
Python:Python学习总结背景 PHP的$和->让人输入的手疼(PHP确实非常简洁和强大,适合WEB编程),Ruby的#.@.@@也好不到哪里(OO人员最该学习的一门语言). Pyth ...

随机推荐

定义函数返回 ax2 + bx + c = 0 的两个解
# -*- coding: utf-8 -*- import math def quadratic(a, b, c): s = b*b - 4*a*c if a == 0: x = -c / b re ...
Kubernetes中部署wordpress+mysql（六）
经过前面的内容其实对k8s已经有了服务迁移的能力了,下面这篇文章主要是用来搭建一些后面要用的组件一.创建wordpress命名空间 kubectl create namespace wordpres ...
带你十天轻松搞定 Go 微服务系列（五）
序言我们通过一个系列文章跟大家详细展示一个 go-zero 微服务示例,整个系列分十篇文章,目录结构如下: 环境搭建服务拆分用户服务产品服务订单服务(本文) 支付服务 RPC 服务 Auth ...
【第十二期】腾讯后台实习初试、复试、HR面经 (许愿OC)
楼主投的很晚属于正常批才开始,初试面试官比较重基础,复试面试官比较看综合能力,HR小姐姐声音好听,腾讯面试官都特别nice! 一面: 看你项目很多,你挨个给我介绍一遍吧我:一大堆按着简历介绍日志文 ...
java下载网络大文件之内存不够的解决办法（包含分片上传分片下载）
一.背景 2020年11月份的时候,我做过一个项目,涉及到网络文件,比如第三方接口提供一个文件的下载地址,使用java去下载,当时我全部加在到JVM内存里面,话说,单单是80M的下载单线程没问题,但是 ...
Linux下Mysql报错
报错内容为:[mysql]ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/lib/mysql/ ...
Linux-标准输入标准输出
标准输入(代码为0) 标准输出(代码为1) 标准错误输出(代码为2) 将标准输出重定向到一个文件 find /etc -name fileA >list 等同于 find /etc -name ...
用 Python 简单生成 WAV 波形声音文件
Python 简单生成 WAV 波形声音文件让机器发出声响,本身就是一件充满魔法的事情.有没有想过,用一段简单的代码,生成一个最简单的声音呢?Python 这门脚本语言的库十分丰富,借助于其中的三个 ...
主机磁盘使用率超过85%导致es索引变为只读模式
[ type=cluster_block_exception, reason=index [ index_name ] FORBIDDEN/12/index read-only / allow del ...
CentOS7搭建ntp时钟服务器
文章目录服务器配置远程客户端配置服务器配置 # 关闭防火墙,selinux=disabled 1.# 服务器部署 [root@localhost ~]# yum -y install ntp n ...

Python：lxml