python3学习-lxml模块

在爬虫的学习中，我们爬取网页信息之后就是对信息项匹配，这个时候一般是使用正则。但是在使用中发现正则写的不好的时候不能精确匹配（这其实是自己的问题！）所以就找啊找。想到了可以通过标签来进行精确匹配岂不是比正则要快。所以找到了lxml。

因为lxml是对xml格式的解析，支持html格式，而对于xml格式的解析有一门专用的语言，XPath。XPath用于在xml文档中通过元素和属性进行导航。lxml库也是解析xml文件，所以也应用了XPath语法。我们先学习一下XPath 的标准语法，然后将这些语法知识应用到lxml之中。

大家应该对xml或者是html都不陌生，默认大家都知道，所以就简单介绍。

节点关系

父子节点(Parent children)

<div class="all">

    <div class="sub"></div>

</div>

无需解释。

兄弟节点(sibling)

<div class="all">

    <div class="sibling"></div>

    <div class="sibling"></div>

</div>

无需解释。

先辈(Ancestor)后代(Descendant)

<div class="grandpa">

    <div class="all">

        <div class="sibling"></div>

        <div class="sibling"></div>

    </div>

</div>

节点选择

表达式	描述
nodename	选取此节点的所有子节点
/	此路径运算符出现在模式开头时，表示应从根节点选择
//	从当前节点开始递归下降，此路径运算符出现在模式开头时，表示应从根节点递归下降。
.	选取当前节点
..	选取当前节点的父节点
@	选取属性
*	通配符.选择所有元素节点与元素名无关
@	选取属性
@*	选取所有属性
:	命名空间分隔符；将命名空间前缀与元素名或属性名分隔
()	括号运算符(优先级最高)，强制运算优先级
[]	应用筛选模式（即谓词，包括”过滤表达式”和”轴（向前/向后）”）
\|	两个节点集合的联合,eg:/div/a \| //div/span
@	选取属性

匹配未知节点

通配符	描述
*	匹配任何节点
@*	匹配任何属性节点
node()	匹配任何类型的节点

实例

下面我们通过一些例子看一下谓词+表达式的综合：

路径表达式	结果
/node()	根元素下所有的节点（包括文本节点，注释节点等）
/text()	查找文档根节点下的所有文本节点
/div/a[1]	选取属于div的第一个a元素
/div/a[1]	选取属于div的第一个a元素
/div/a[last()]	选取属于div的子元素中倒数第一个a元素
/div/a[last()-1]	选取属于div的子元素中倒数第二个a元素
/div/a[position()

python3学习-lxml模块的更多相关文章

python3爬虫lxml模块的安装
1:在下载lxml之前,要先查看python的版本信息, 在CMD命令行输入python 再输入import pip; print(pip.pep425tags.get_supported()) -- ...
python3学习-Queue模块
python标准库中带有一个Queue模块,顾名思义,队列.该模块也衍生出一些基本队列不具有的功能. 我们先看一下队列的方法: put 存数据 get 取数据 empty 判断队列是否为空 qsize ...
python3学习-logging模块
1.logging模块的使用非常简单,引入模块就可以使用. import logging logging.debug('This is debug message') logging.info('Th ...
python3学习-pickle模块
pickle提供了一个简单的持久化功能.可以将对象以文件的形式存放在磁盘上. 基本接口: pickle.dump(obj, file, [,protocol]) 注解:将对象obj保存到文件file中 ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
Python爬虫基础——XPath语法的学习与lxml模块的使用
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂: XPath:语法简单,可以满足绝大部分的需求: 所以,如果你可以根据自己的需要进行选择. 一.首先,我们需要为 ...
洗礼灵魂，修炼python（71）--爬虫篇—【转载】xpath/lxml模块，爬虫精髓讲解
Xpath,lxml模块用法转载的原因和前面的一样,我写的没别人写的好,所以我也不浪费时间了,直接转载这位崔庆才大佬的原帖链接:传送门以下为转载内容: --------------------- ...
Python3学习(2)-中级篇
Python3学习(1)-基础篇 Python3学习(2)-中级篇 Python3学习(3)-高级篇切片:取数组.元组中的部分元素 L=['Jack','Mick','Leon','Jane','A ...
Python3学习之路~0 目录
目录 Python3学习之路~2.1 列表.元组操作 Python3学习之路~2.2 简单的购物车程序 Python3学习之路~2.3 字符串操作 Python3学习之路~2.4 字典操作 Pytho ...

随机推荐

ZOJ 3981：Balloon Robot（思维+递推）
题目链接题意有n支队在m个位置上做题,有一个机器人位置1到位置m再到位置1循环走派发气球,当队伍a在时间b做完了一道题目的时候,假如机器人走到队伍a的位置的时间为c,那么这个队伍的不开心值就是c- ...
Codeforces Gym101257F：Islands II（求割点+思维）
http://codeforces.com/gym/101257/problem/F 题意:给出一个n*m的地图,上面相同数字的代表一个国家,问对于每个国家有多少个国家在它内部(即被包围).例如第一个 ...
Codeforces 757B：Bash's Big Day（分解因子+Hash）
http://codeforces.com/problemset/problem/757/B 题意:给出n个数,求一个最大的集合并且这个集合中的元素gcd的结果不等于1. 思路:一开始把素数表打出来, ...
RT-Thread定时器以及结构体指针的一些思考
定时器分为软件定时器和硬件定时器.顾名思义,软件定时器就是有操作系统提供的软件定时器,硬件定时器就是用硬件芯片提供的定时器. 而在RT-Thread操作系统提供的定时器是软件定时器,但是为了便于管理, ...
【无线安全实践入门】网络扫描和ARP欺骗
文中可能存在错误操作或错误理解,望大家不吝指正. 同时也希望可以帮助到想要学习接触此方面.或兴趣使然的你,让你有个大概的印象. !阅前须知! 本文是基于我几年前的一本笔记本,上面记录了我学习网络基础时 ...
数据库系统概念：SQL的数据类型与模式、授权
public class DataBase { public static void main() { } } /* 4.5 SQL的数据类型与模式 4.5.1 SQL的日期与时间类型 SQL标准支持 ...
洛谷P4995 跳跳！题解
求关注,求赞,求评论QAQ 题目:https://www.luogu.org/problemnew/show/P4995 简单描述一下吧,就是说有n块石头,起始可以跳到任何一块上面,接着也是,只不过每 ...
xss magic_quotes_gpc
---恢复内容开始--- magic_quotes_gpc函数,在php5.4以上移除了, 但是很奇怪的是我的5.6版本这边是可以找到这个选项的. 在php.ini文件里面,默认关闭,如果将此 ...
TensorFlow笔记-可视化Tensorboard
可视化Tensorboard •数据序列化-events文件 TensorBoard 通过读取 TensorFlow 的事件文件来运行 •tf.summary.FileWriter('/tmp/ten ...
Java用户程序
Java的用户程序分为两类:Java Application和Java Applet. 这两类程序在程序结构和执行机制上有一定的差异. Java Application是完整的程序,需要独立的Java ...

python3学习-lxml模块

python3学习-lxml模块的更多相关文章

随机推荐

热门专题