Python爬虫教程-22-lxml-etree和xpath配合使用

lxml：python 的HTML/XML的解析器
官网文档：https://lxml.de/
使用前，需要安装安 lxml 包
功能：
- 1.解析HTML：使用 etree.HTML(text) 将字符串格式的 html 片段解析成 html 文档
- 2.读取xml文件
- 3.etree和XPath 配合使用

lxml 的安装

【PyCharm】>【file】>【settings】>【Project Interpreter】>【+】 >【lxml】>【install】
具体操作截图：

lxml-etree 的使用

案例v25文件：https://xpwi.github.io/py/py爬虫/py25etree.py
用 lxml 来解析HTML代码

# 先安装lxml

# 用 lxml 来解析HTML代码

from lxml import etree

text = '''

<div>

    <ul>

        <li class="item-0"><a href="0.html">item 0 </a></li>

        <li class="item-1"><a href="1.html">item 1 </a></li>

        <li class="item-2"><a href="2.html">item 2 </a></li>

        <li class="item-3"><a href="3.html">item 3 </a></li>

        <li class="item-4"><a href="4.html">item 4 </a></li>

        <li class="item-5"><a href="5.html">item 5 </a></li>

    </ul>

</div>

'''

# 利用 etree.HTML 把字符串解析成 HTML 文件

html = etree.HTML(text)

s = etree.tostring(html).decode()

print(s)

运行结果

lxml-etree 的使用

案例v26etree2文件：https://xpwi.github.io/py/py爬虫/py26etree2.py
读取xml文件：

# lxml-etree读取文件

from lxml import etree

xml = etree.parse("./py24.xml")

sxml = etree.tostring(xml, pretty_print=True)

print(sxml)

运行结果

etree和XPath 配合使用

案例v26expath.文件：https://xpwi.github.io/py/py爬虫/py26expath.py
etree和XPath 配合使用：

# lxml-etree读取文件

from lxml import etree

xml = etree.parse("./py24.xml")

print(type(xml))

# 查找所有 book 节点

rst = xml.xpath('//book')

print(type(rst))

print(rst)

# 查找带有 category 属性值为 sport 的元素

rst2 = xml.xpath('//book[@category="sport"]')

print(type(rst2))

print(rst2)

# 查找带有category属性值为sport的元素的book元素下到的year元素

rst3 = xml.xpath('//book[@category="sport"]/year')

rst3 = rst3[0]

print('-------------\n',type(rst3))

print(rst3.tag)

print(rst3.text)

运行结果

etree和XPath 配合使用结果

更多文章链接：Python 爬虫随笔

- 本笔记不允许任何个人和组织转载

Python爬虫教程-22-lxml-etree和xpath配合使用的更多相关文章

Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...
Python爬虫教程-33-scrapy shell 的使用
本篇详细介绍 scrapy shell 的使用,也介绍了使用 xpath 进行精确查找 Python爬虫教程-33-scrapy shell 的使用 scrapy shell 的使用条件:我们需要先 ...
Python爬虫教程-25-数据提取-BeautifulSoup4（三）
Python爬虫教程-25-数据提取-BeautifulSoup4(三) 本篇介绍 BeautifulSoup 中的 css 选择器 css 选择器使用 soup.select 返回一个列表通过标 ...
Python爬虫教程-24-数据提取-BeautifulSoup4（二）
Python爬虫教程-24-数据提取-BeautifulSoup4(二) 本篇介绍 bs 如何遍历一个文档对象遍历文档对象 contents:tag 的子节点以列表的方式输出 children:子节 ...
Python爬虫教程-23-数据提取-BeautifulSoup4（一）
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据,查看文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc. ...
Python爬虫教程-21-xpath 简介
本篇简单介绍 xpath 在python爬虫方面的使用,想要具体学习 xpath 可以到 w3school 查看 xpath 文档 xpath文档:http://www.w3school.com.cn ...
Python爬虫教程-18-页面解析和数据提取
本篇针对的数据是已经存在在页面上的数据,不包括动态生成的数据,今天是对HTML中提取对我们有用的数据,去除无用的数据 Python爬虫教程-18-页面解析和数据提取结构化数据:先有的结构,再谈数据 ...
Python爬虫教程-21-xpath
本篇简单介绍 xpath 在python爬虫方面的使用,想要具体学习 xpath 可以到 w3school 查看 xpath 文档 Python爬虫教程-21-xpath 什么是 XPath? XPa ...

随机推荐

JAVA普通内部类的用法
内部类顾名思义就是定义在一个类的内部内部类又有普通内部类.方法和域内的内部类.匿名内部类.嵌套内部类普通内部类的基础用法 class MyClass{ class InnerClass1{ pub ...
UNIX SHELL基础知识总结(二)
1. vim,vi及ex的关系 vim不需要安装,vi为ex的“Visual Mode”,Vim是vi的高级版本: 2. Unix Shell 快捷键 Ctrl+a/e将光标定位到命令的头/尾 Ct ...
vscode用yuml画类图
vscode用yuml画类图最近在找画类图的工具,发现vscode一款插件很好用,还支持markdown.vscode插件中直接搜索yuml安装即可. 文件后缀.yuml. 文件开头第一行这样写// ...
ionic3 pop到指定页面
this.navCtrl.getViews().forEach(element => { if(element.name == 'JiecheHomePage'){ this.navCtrl.p ...
Oracle TM锁和TX锁
CREATE TABLE "TEST6" ( "ID" ), "NAME" ), "AGE" ,), "SEX ...
c#静态扩展方法，字典的克隆扩展方法
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
JavaScirpt事件处理
一.事件流事件流,描述的是页面中接受事件的顺序,不过,IE的事件流是事件冒泡流,而Netscape Communicator的事件流是事件捕获型.标准同时支持两种事件模型,即捕获型事件与冒泡型事件, ...
MySQL使用内置函数来进行模糊搜索(locate()等)
常用的一共有4个方法,如下: 1. 使用locate()方法 1.1.普通用法: SELECT `column` from `table` where locate('keyword', `condi ...
MySQL事务实现原理
MySQL事务隔离级别的实现原理知识储备只有InnoDB支持事务,所以这里说的事务隔离级别是指InnoDB下的事务隔离级别隔离级别读未提交:一个事务可以读取到另一个事务未提交的修改.这会带来脏 ...
带有Apache Spark的Lambda架构
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 目标市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据.但是谁愿意等待24小时才能获得最新的分析结果? ...

Python爬虫教程-22-lxml-etree和xpath配合使用

Python爬虫教程-22-lxml-etree和xpath配合使用

lxml 的安装

lxml-etree 的使用

运行结果

lxml-etree 的使用

运行结果

etree和XPath 配合使用

运行结果

更多文章链接：Python 爬虫随笔

Python爬虫教程-22-lxml-etree和xpath配合使用的更多相关文章

随机推荐

热门专题