1. 什么是lxml

lxml是干什么的？简单的说来，lxml是帮助我们解析HTML、XML文件，快速定位，搜索、获取特定内容的Python库。我们知道，对于纯文本的HTML文件的查找可以使用正则表达式、BeautifulSoup等完成。lxml也是对网页内容解析的一个库。

那么为什么要用lxml呢？据听说他比较快。我没有用来做过大项目，对解析速度理解不是很深刻。我用lxml只是因为它似乎比BeautifulSoup好用。

2. 初次使用

安装

sudo pip3 install lxml

初次使用

# 导入lxml

from lxml import etree

# html字符串

html_str = """

<html>

<head>

<title>demo</title>

</head>

<body>

<p>1111111</p>

</body>

</html>

"""

# 利用html_str创建一个节点树对象

html = etree.HTML(html_str)

type(html) # 输出结果为：lxml.etree._Element

首次解析HTML

不用理会下面代码中出现的新的方法和各种解析的技巧。先看一下lxml如何快速方便的解析html.

# 我们现在要获得上面的html文件中的p标签的内容

p_str = html.xpath('//body/p/text()')  # 返回结果为一个列表：['1111111']

上面的例子，给出一个lxml如何解析HTML文件的实例。后文中众多的知识点，只不过是讲解更多的xpath解析方法技巧。

3. xpath

我们一直再讲lxml，这里突然出现xpath是干什么的？lxml的主要功能是解析HTML，他是利用什么语法来解析HTML的呢？就是利用xpath，因此，我们需要了解如何使用xpath。

xpath将html文档看做一个有众多的节点按照特定级别组织的节点树，对于其中内容的解析，又三种主要的措施：

标签定位
序列定位
轴定位

很抱歉，我们又引入了新的概念。但现在我们解释这些概念是不明智的，还是先看一下如何使用。

3.2 标签定位

为了说明xpath各种定位语法，我们下面利用如下的HTML来完成讲解。

from lxml import etree

html_str = """

<!DOCTYPE html>

<html lang="en">

<head>

    <meta charset="UTF-8">

    <meta name="viewport" content="width=device-width, initial-scale=1.0">

    <meta http-equiv="X-UA-Compatible" content="ie=edge">

    <title>The Document's story</title>

</head>

<body>

    <div class="table1">

        <ul class="one" id="id1">

            <tr>tr1</tr>

            <tr>tr2</tr>

            <tr>tr3</tr>

            <tr>tr4</tr>

        </ul>

        <ol class="two" id="id2">

            <td>td1</td>

            <td>td2</td>

            <td>td3</td>

            <td>td4</td>

        </ol>

    </div>

    <div class="table2">

        <a href="www.table2_1.com"><span>table2_span</span></a>

        <a href="www.table2_2.com">

            <p><h2>TABLE2</h2></p>

        </a>

        <a href="www.table2_3.com" id="id3">

                <ul class="table_one" id="id4">

                    <tr>tr1_a</tr>

                    <tr>tr2_a</tr>

                    <tr>tr3_a</tr>

                    <tr>tr4_a</tr>

                </ul>

        </a>

    </div>

</body>

</html>

"""

html = etree.HTML(html_str)

html.xpath('//*') # 请将'//*'替换成下面表中实例列的表达式以观察各表达式的含义和作用。

先给出一张表。下表中给出了标签定位的表达式和对其作用的描述。下表中，实例列中的表达式的全部表达如下：如第一行中的命令为'//div',则全部的表达式为html.xpath('//div') 。注意，这里的html是一个lxml.etree._Element对象。（我们用HTML表示HTML文件或者其对应的字符串。）

表达式	描述	实例	解释
nodename	选取此节点的所有子节点	'//div'	找到html树中的所有div标签
/	从根节点选取	'/head/title'	从根节点找到head->title
//	选取任意位置的某个节点	'//'	html中所有p标签
.	选取当前节点	'.'	返回当前节点对象
..	选取当前节点的父节点	'/html/head/..'	返回head的父节点html
@	选取属性	'//div[@class="one"]'	返回具有属性class，并且class的值为"one"的节点
*	通配符	'//div/*'	返回所有满足条件的节点
\|	一次选择多个路径	'/html/head \| //div'	返回head节点或者div节点
@*	选取所有属性	'//div[@*]'	返回所有具有属性的div对象

3.3 序列定位

通过上面的学习，我们知道html.xpath()返回的是一个包含节点树对象的列表，对于列表中的元素，我们可以按照列表的索引进行查找，但是，如果想在xpath里面进行选择，就需要使用序列定位。

下面的代码承接上文。在给出一张表。

谓语	描述	实例	解释
[1]	第一个元素	'//div[1]'	返回第一个div对象
[last()]	最后一个元素	'//div[last()]'	返回最后一个div对象
[last()-1]	倒数第二个元素	'//div/ul[1]/tr[last()-1]'	返回所有div对象中第一个ul对象下面的倒数第二个tr对象
[position()❤️]	最前面的两个元素	'//tr[position()❤️]'	返回前两个tr对象
[@lang]	所有拥有属性lang的元素	'//div[@class]'	返回具有calss属性的div
[@lang='en']	所有lang='en'的元素	'//div[@class="en"]'	返回class属性值为en的div对象

3.4 轴定位

同上。

轴名称	描述	实例	解释
child	当前节点的所有子元素	'//div[1]/child: lxml解析网页的更多相关文章 Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ... python网络爬虫-解析网页（六）解析网页主要使用到3种方法提取网页中的数据,分别是正则表达式.beautifulsoup和lxml. 使用正则表达式解析网页正则表达式是对字符串操作的逻辑公式 .代替任意字符 . *匹配前0个或多 ... 用Xpath选择器解析网页（lxml）在<爬虫基础以及一个简单的实例>一文中,我们使用了正则表达式来解析爬取的网页.但是正则表达式有些繁琐,使用起来不是那么方便.这次我们试一下用Xpath选择器来解析网页. 首先,什么是XPa ... Beautiful Soup解析网页使用前步骤: 1.Beautiful Soup目前已经被移植到bs4,所以导入Beautiful Soup时先安装bs4库. 2.安装lxml库:如果不使用此库,就会使用Python默认的解析器,而l ... 网络爬虫之Selenium模块和Xpath表达式+Lxml解析库的使用实际生产环境下,我们一般使用lxml的xpath来解析出我们想要的数据,本篇博客将重点整理Selenium和Xpath表达式,关于CSS选择器,将另外再整理一篇! 一.介绍: selenium最初是一 ... bs4——BeautifulSoup模块：解析网页解析由requests模块请求到的网页 import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/ ... python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三] 目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ... python网络爬虫之解析网页的XPath(爬取Path职位信息)[三] 目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ... Python爬虫解析网页的4种方式值得收藏用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ... 随机推荐 mysql中id值被重置的情况 MySQL中,如果你为一张使用了innodb引擎的表指定了一auto_increment列,那么这张表会有一个auto_increment计数器,专门记录当前auto_increment的相关值,用来 ... RDBMS与数据库之间的关系什么是数据库? 数据库就是用来存放数据的仓库,它是一种特殊的文件. 什么是关系型数据库? 关系型数据库就是指建立在关系模型基础上的数据库,通常由多张表组成,这些表之间存在一定的关系. 什么是RDBMS ... [1045] PDOException in Connection.php line 295 tp5实现登录功能时报错在使用tp5框架实现登录功能的时候,点击login出现了 [1045] PDOException in Connection.php line 295 这个问题, 报错是 S ... STM32F072从零配置工程-建立工程文件快速建立工程有两种方法: 第一种是通过官方提供的外设库来搭建,好处是使用库函数,而不需要深入研究寄存器配置: 第二种是通过STM32CubeMX,好处是直观快速,可以直接帮你配置好功能和时钟,不过使用 ... AKKA 集群中的发布与订阅Distributed Publish Subscribe in Cluster Distributed Publish Subscribe in Cluster 基本定义在单机环境下订阅与发布是很常用的,然而在集群环境是比较麻烦和不好实现的: AKKA已经提供了相应的实现,集群 ... python爬虫笔记之re.IGNORECASE re.IGNORECASE有什么用?re.IGNORECASE是什么意思?(原谅我抓下seo..) 这里自己总结下: re.IGNORECASE是compile函数中的一个匹配模式. re.IGNOR ... [记录]Linux下大批量添加用户的方法 Linux系统提供了创建大量用户的工具,可以让您立即创建大量用户,方法如下: (1)先编辑一个文本用户文件. 每一列按照/etc/passwd密码文件的格式书写,要注意每个用户的用户名.UID.宿主目 ... Kafka集群部署以及使用 Kafka集群部署部署步骤 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka http://kafka.apache.org/down ... 盘一盘 synchronized （一）—— 从打印Java对象头说起 Java对象头的组成 Java对象的对象头由 mark word 和 klass pointer 两部分组成, mark word存储了同步状态.标识.hashcode.GC状态等等. klass ... Redis项目实战---应用及理论（二）---Redis集群原理一. Redis官方推荐集群方案:Redis Cluster 适用于redis3.0以后版本, redis cluster 是redis官方提供的分布式解决方案,在3.0版本后推出的,有 ... 热门专题人人商城 m('plugin')->loadModel c#中json转dataset 存入数据库 mfc的list control 行颜色 webgl 贴图平铺 python中小数的n次方怎么写 sqlalchemy 连接 influxdb Clion event2 怎么安装 vue 中给组件使用 babel java 获取本年每个月份的销售量初级持续集成实习平时干什么的 el-checkbox change 不兼容攻防世界 unfinish ARM汇编 BIC 代码 latex 圈里一个工 asp.net 站点地图 latex tikz 整体缩小 python 七分类深度学习混淆矩阵 AWT 绘制清晰图片 pandas读取复合索引 fLASK return图片 Home Powered By WordPress

轴名称

描述

实例

解释

child

当前节点的所有子元素

'//div[1]/child:

lxml解析网页的更多相关文章

Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
python网络爬虫-解析网页（六）
解析网页主要使用到3种方法提取网页中的数据,分别是正则表达式.beautifulsoup和lxml. 使用正则表达式解析网页正则表达式是对字符串操作的逻辑公式 .代替任意字符 . *匹配前0个或多 ...
用Xpath选择器解析网页（lxml）
在<爬虫基础以及一个简单的实例>一文中,我们使用了正则表达式来解析爬取的网页.但是正则表达式有些繁琐,使用起来不是那么方便.这次我们试一下用Xpath选择器来解析网页. 首先,什么是XPa ...
Beautiful Soup解析网页
使用前步骤: 1.Beautiful Soup目前已经被移植到bs4,所以导入Beautiful Soup时先安装bs4库. 2.安装lxml库:如果不使用此库,就会使用Python默认的解析器,而l ...
网络爬虫之Selenium模块和Xpath表达式+Lxml解析库的使用
实际生产环境下,我们一般使用lxml的xpath来解析出我们想要的数据,本篇博客将重点整理Selenium和Xpath表达式,关于CSS选择器,将另外再整理一篇! 一.介绍: selenium最初是一 ...
bs4——BeautifulSoup模块：解析网页
解析由requests模块请求到的网页 import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/ ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...
Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ...

随机推荐

mysql中id值被重置的情况
MySQL中,如果你为一张使用了innodb引擎的表指定了一auto_increment列,那么这张表会有一个auto_increment计数器,专门记录当前auto_increment的相关值,用来 ...
RDBMS与数据库之间的关系
什么是数据库? 数据库就是用来存放数据的仓库,它是一种特殊的文件. 什么是关系型数据库? 关系型数据库就是指建立在关系模型基础上的数据库,通常由多张表组成,这些表之间存在一定的关系. 什么是RDBMS ...
[1045] PDOException in Connection.php line 295
tp5实现登录功能时报错在使用tp5框架实现登录功能的时候,点击login出现了 [1045] PDOException in Connection.php line 295 这个问题, 报错是 S ...
STM32F072从零配置工程-建立工程文件
快速建立工程有两种方法: 第一种是通过官方提供的外设库来搭建,好处是使用库函数,而不需要深入研究寄存器配置: 第二种是通过STM32CubeMX,好处是直观快速,可以直接帮你配置好功能和时钟,不过使用 ...
AKKA 集群中的发布与订阅Distributed Publish Subscribe in Cluster
Distributed Publish Subscribe in Cluster 基本定义在单机环境下订阅与发布是很常用的,然而在集群环境是比较麻烦和不好实现的: AKKA已经提供了相应的实现,集群 ...
python爬虫笔记之re.IGNORECASE
re.IGNORECASE有什么用?re.IGNORECASE是什么意思?(原谅我抓下seo..) 这里自己总结下: re.IGNORECASE是compile函数中的一个匹配模式. re.IGNOR ...
[记录]Linux下大批量添加用户的方法
Linux系统提供了创建大量用户的工具,可以让您立即创建大量用户,方法如下: (1)先编辑一个文本用户文件. 每一列按照/etc/passwd密码文件的格式书写,要注意每个用户的用户名.UID.宿主目 ...
Kafka集群部署以及使用
Kafka集群部署部署步骤 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka http://kafka.apache.org/down ...
盘一盘 synchronized （一）—— 从打印Java对象头说起
Java对象头的组成 Java对象的对象头由 mark word 和 klass pointer 两部分组成, mark word存储了同步状态.标识.hashcode.GC状态等等. klass ...
Redis项目实战---应用及理论（二）---Redis集群原理
一. Redis官方推荐集群方案:Redis Cluster 适用于redis3.0以后版本, redis cluster 是redis官方提供的分布式解决方案,在3.0版本后推出的,有 ...

lxml解析网页