Python lxml库的安装和使用

lxml 是 Python 的第三方解析库，完全使用 Python 语言编写，它对 Xpath 表达式提供了良好的支持，因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。

安装lxml库

lxml 属于 Python 第三方库，因此需要使用如下方法安装：

pip3 install lxml

在 CMD 命令行验证是否安装成功。若引入模块，不返回错误则说明安装成功。

>>> import lxml

>>>

lxml使用流程

lxml 库提供了一个 etree 模块，该模块专门用来解析 HTML/XML 文档，下面我们简单介绍一下 lxml 库的使用流程，如下所示：

1) 导入模块

from lxml import etree

2) 创建解析对象

调用 etree 模块的 HTML() 方法来创建 HTML 解析对象。如下所示：

parse_html = etree.HTML(html)

HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件，该方法可以自动修正 HTML 文本。示例如下：

# coding=utf-8

from lxml import etree

html_str = '''

<div>

    <ul>

         <li class="item1"><a href="link1.html">Python</a></li>

         <li class="item2"><a href="link2.html">Java</a></li>

         <li class="site1"><a href="c.biancheng.net">C语言中文网</a>

         <li class="site2"><a href="www.baidu.com">百度</a></li>

         <li class="site3"><a href="www.jd.com">京东</a></li>

     </ul>

</div>

'''

# 将 HTML 标签字符串解析为 HTML 文件

html = etree.HTML(html_str)

# tostring()将标签元素转换为字符串的字节输出，注意：加decode("utf-8")转为字符串类型

# result = etree.tostring(html).decode("utf-8")  # 打印会出现中文乱码

# lxml.etree.tostring 乱码的解决方案

# 参考文档 https://blog.csdn.net/damontive/article/details/113422206

result = etree.tostring(html, encoding="utf-8").decode("utf-8")

print(result)

输出结果如下：

<html><body><div>

    <ul>

         <li class="item1"><a href="link1.html">Python</a></li>

         <li class="item2"><a href="link2.html">Java</a></li>

         <li class="site1"><a href="c.biancheng.net">C语言中文网</a>

         </li><li class="site2"><a href="www.baidu.com">百度</a></li>

         <li class="site3"><a href="www.jd.com">京东</a></li>

     </ul>

</div>

</body></html>

上述 HTML 字符串存在缺少标签的情况，比如“C语言中文网”缺少一个闭合标签，当使用了 HTML() 方法后，会将其自动转换为符合规范的 HTML 文档格式。

3) 调用xpath表达式

最后使用第二步创建的解析对象调用 xpath() 方法，完成数据的提取，如下所示：

r_list = parse_html.xpath('xpath表达式')

lxml库数据提取

下面通过一段 HTML 代码实例演示如何使用 lxml 库提取想要的数据。

# coding=utf-8

from lxml import etree

html_str = '''

<div class="wrapper">

    <a href="www.biancheng.net/product/" id="site">website product</a>

    <ul id="sitename">

    <li><a href="http://www.biancheng.net/" title="编程帮">编程</a></li>

    <li><a href="http://world.sina.com/" title="新浪娱乐">微博</a></li>

    <li><a href="http://www.baidu.com" title="百度">百度贴吧</a></li>

    <li><a href="http://www.taobao.com" title="淘宝">天猫淘宝</a></li>

    <li><a href="http://www.jd.com/" title="京东">京东购物</a></li>

    <li><a href="http://c.bianchneg.net/" title="C语言中文网">编程</a></li>

    <li><a href="http://www.360.com" title="360科技">安全卫士</a></li>

    <li><a href="http://www.bytesjump.com/" title=字节">视频娱乐</a></li>

    <li><a href="http://bzhan.com/" title="b站">年轻娱乐</a></li>

    <li><a href="http://hao123.com/" title="浏览器">搜索引擎</a></li>

    </ul>

</div>

'''

# 创建解析对象

parse_html = etree.HTML(html_str)

# 1) 提取a标签里的文本数据，以列表形式输出

r_list = parse_html.xpath('//a/text()')

# 打印数据列表

print(r_list)

# out: ['website product', '编程', '微博', '百度贴吧', '天猫淘宝', '京东购物', '编程', '安全卫士', '视频娱乐', '年轻娱乐', '搜索引擎']

# 2) 提取a标签里href的属性值，以列表形式输出

a_hrefs = parse_html.xpath('//a/@href')

print(a_hrefs)

# out: ['www.biancheng.net/product/', 'http://www.biancheng.net/', 'http://world.sina.com/', 'http://www.baidu.com', 'http://www.taobao.com', 'http://www.jd.com/', 'http://c.bianchneg.net/', 'http://www.360.com', 'http://www.bytesjump.com/', 'http://bzhan.com/', 'http://hao123.com/']

# 3) 匹配 id=sitename 下的li下的a标签下的 href的值

a_hrefs2 = parse_html.xpath('//ul[@id="sitename"]/li/a/@href')

print(a_hrefs2)

# out: ['http://www.biancheng.net/', 'http://world.sina.com/', 'http://www.baidu.com', 'http://www.taobao.com', 'http://www.jd.com/', 'http://c.bianchneg.net/', 'http://www.360.com', 'http://www.bytesjump.com/', 'http://bzhan.com/', 'http://hao123.com/']

转载文档：

http://c.biancheng.net/python_spider/lxml.html

03 Xpath lxml库的安装和使用的更多相关文章

windows下使用pip安装python的第三方lxml库
lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库.lxml库的安装和python其他第三方库的安装方法是一样的,只是可能由于一些细节上的失误导致安装失败. 工具 Pyt ...
Python3 网络爬虫（请求库的安装）
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
Python3 常用爬虫库的安装
Python3 常用爬虫库的安装 1 简介 Windows下安装Python3常用的爬虫库:requests.selenium.beautifulsoup4.pyquery.pymysql.pymon ...
windows下python常用库的安装
windows下python常用库的安装,前提安装了annaconda 的python开发环境.只要已经安装了anaconda,要安装别的库就很简单了.只要使用pip即可,正常安装好python,都会 ...
Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
芝麻HTTP：Python爬虫利器之Xpath语法与lxml库的用法
安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPat ...
Windows环境下使用pip install安装lxml库
lxml是Python语言和XML以及HTML工作的功能最丰富和最容易使用的库.lxml是为libxml2和libxslt库的一个Python化的绑定.它与众不同的地方是它兼顾了这些库的速度和功能完整 ...
12.Python爬虫利器三之Xpath语法与lxml库的用法
LXML解析库使用的是Xpath语法: XPath 是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 XPath可以用来提取信息 XPath比 ...
xpath教程 2 - lxml库
xpath教程 2 - lxml库这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml. lxml库 lxml 是一个HTML/XML的解析器,主要的功能是如何解析和提取 HT ...
Python爬虫11-XML与XPath概述及lxml库的应用
GitHub代码练习地址:用lxml解析HTML,文件读取,etree和XPath的配合使用:https://github.com/Neo-ML/PythonPractice/blob/master/ ...

随机推荐

KingbaseES V8R6集群备份恢复案例之---备份初始化“can not find primary node”故障
案例说明: KingbaseES V8R6集群,备库作为repo-path节点,建立类型为'cluster'模式的备份,在执行sys_backup.sh init时,出现"can not f ...
jQuery AJAX 常见属性
1 jQuery.ajax(...) 2 部分参数: 3 url:请求地址 4 type:请求方式,GET.POST(1.9.0之后用method) 5 headers:请求头 6 data:要发送的 ...
https安全性带给im 消息加密的启发
大家好,我是蓝胖子,在之前# MYSQL 是如何保证binlog 和redo log同时提交的?这篇文章里,我们可以从mysql的设计中学会如何让两个服务的调用逻辑达到最终一致性,这也是分布式事务实现 ...
#2-SAT，平面图#洛谷 3209 [HNOI2010] 平面图判定
题目传送门分析首先一张图是平面图的必要条件为 \(m\leq 3*n-6\), 然后考虑到这题的图存在哈密尔顿回路,也就是说非环边因为跨立形成奇环即为无解那么直接拆点跑2-SAT就可以了代码 ...
#珂朵莉树#CF896C Willem, Chtholly and Seniorious
题目支持区间加,区间推平,询问区间第\(k\)小, 以及询问区间\(\sum{a_i^x}\pmod y\),数据随机分析由于数据随机,那么区间推平的概率为\(\frac{1}{4}\), 考虑 ...
Avalonia的自定义用户组件
Avalonia中的自定义用户控件 Avalonia是一个跨平台的.NET UI框架,它允许开发者使用C#和XAML来构建丰富的桌面应用程序. 自定义用户控件(UserControl)是Avaloni ...
HTMLTestRunner测试报告中点击 view 按钮没反应
背景 HTMLTestRunner 生成测试报告后,发现点击 view 这个按钮一直没有反应通过 F12 开发人员工具检查,发现是 jQuery 文件没有加载出来解决方法我采用的解决方法是直接 ...
手工安装部署openGauss3.0一主一备（非om工具安装）
手工安装部署 openGauss3.0 一主一备(非 om 工具安装) 本文出处:https://www.modb.pro/db/425385 一.操作系统配置(centos7.6) 1.关闭防火墙 ...
HarmonyOS智能座舱体验是怎样炼成的？立即查看
原文链接:https://mp.weixin.qq.com/s/AGY2hAeXngtRrZFk0FXe5g,点击链接查看更多技术内容: 随着AITO问界M5热卖以及M7.M5 EV版本的陆续交付,A ...
ip 记录路由选项
前言准备整理网络这块,先把概念整理. ip记录路由选项,这个是做什么的呢? 比如说我们发的一条信息,从一端到另外一端经过了那些路由呢?这是一个问题啊. 这个ip记录路由选项就是来看这个问题的,当然这 ...

03 Xpath lxml库的安装和使用