Python 爬虫之 xpath

0x01 XML 基础

xpath 是在 XML 文档中搜索内容的一门语言

HTML 是 XML 的一个子集

XML 代码举例：

<book>

    <isbn>978xxxxxxxx</isbn>

    <name>XML从入门到精通</name>

</book>

其中：

<book>、<isbn>等称为节点
1. <book>是<isbn>的父节点
2. <isbn>是<book>的子节点之一
3. <isbn>与<name>互为兄弟节点
通过节点之间的关系，从根节点查找任意节点，如\book\isbn

xpath 查找原理

0x02 解析 XML

安装 lxml 模块：pip install lxml(4.5.0)

lxml 用法步骤：

将需要解析的 HTML 内容构造出 etree 对象

使用 etree 对象的xpath()方法配合 xpath 表达式来完成对数据的提取

from lxml import etree

html = """

<book>

    <isbn>978xxxxxxxx</isbn>

    <name>XML从入门到精通</name>

        <ctx id="111">内容一</ctx>

        <ctx id="222">内容二</ctx>

        <div>

            <ctx id="333">内容三</ctx>

        </div>

</book>

"""

et = etree.XML(html)

# 根据节点进行搜索

res1 = et.xpath("/book")

res2 = et.xpath("/book/isbn")

res3 = et.xpath("/book//ctx")

res4 = et.xpath("/book/*/ctx")

res5 = et.xpath("/book//ctx/text()")    # 获取该节点的文本

# 输出结果

print(res1)

print(res2)

print(res3)

print(res4)

print(res5)

0x03 解析 HTML

测试用 HTML：

<html>

    <head>

        <meta charset="utf-8" >

        <title>页面标题</title>

    </head>

    <body>

        <h1>标题一</h1>

        <h2>标题二</h2>

        <h3>标题一</h3>

        <h4>标题一</h4>

        <a href="http://www.qq.com">腾讯网</a>

        <div id="content" class="default">

            <p>段落</p>

            <a href="http://www.baidu.com">百度</a>

            <a href="http://www.cnblogs.com/SRIGT">我的博客</a>

            <a href="test">测试</a>

            <img src="./logo.ico" />

        </div>

    </body>

</html>

python 代码：

当标签使用不规范时，使用 xpath 爬取会报错

如：


<meta charset="utf-8">



<meta charset="utf-8" />

from lxml import etree

et = etree.parse("test.html")

res1 = et.xpath('/html')

res2 = et.xpath("/html/body//a/text()")                     # 所有<a>标签的文本

res3 = et.xpath("/html/body/div/a[1]/text()")               # 第1个<a>标签的文本

res4 = et.xpath("/html/body/div/a[@href='test']/text()")    # 由属性值索引的文本

print(res4)

print()

links = et.xpath("/html/body/div/a")

for link in links:

    res5_1 = link.xpath("./text()")

    print(res5_1)

    res5_2 = link.xpath("./@href")

    print(res5_2)

res6 = et.xpath("/html/body/div/a/@href")

print(res6)

End

Python 爬虫之 xpath的更多相关文章

python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
非常全的一份Python爬虫的Xpath博文
非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ...
【python爬虫】Xpath
一.xml是什么 1.定义:可扩展标记性语言 2.特点:xml的是具有自描述结构的半结构化数据. 3.作用:xml主要设计宗旨是用来传输数据的.他还可以作为配置文件. 二.xml和html的区别 1. ...
python爬虫中XPath和lxml解析库
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要 ...
python爬虫--用xpath爬豆瓣电影
步骤将目标网站下的页面抓取下来将抓取下来的数据根据一定规则进行提取具体流程将目标网站下的页面抓取下来 1. 倒库 import requests 2.头信息(有时候可不写) headers ...
Python爬虫：Xpath语法笔记
一.选取节点常用的路劲表达式: 表达式描述实例 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpat ...
python爬虫之xpath的基本使用
一.简介 Xpath是一门在XML文档中查找信息的语言.Xpath可用来在XML文档中对元素和属性进行遍历.Xpath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于XPa ...
Python 爬虫知识点 - XPath
http://cuiqingcai.com/2621.html 一.基础介绍 <bookstore> <book> <title>Harry Potter</ ...
python爬虫-使用xpath方法
#coding=utf-8 import re from lxml import etree import requests response = requests.get("http:// ...

随机推荐

Java 从键盘上输入"year"“month”和“day”，要求通过程序输出输入的日期为第几年的第几天
1 /** 2 * 编写程序: 3 * 从键盘上输入"year""month"和"day",要求通过程序输出 4 * 输入的日期为第几年的第 ...
Acwing第 141 场周赛
A题签到模拟即可 B题单独考虑每一个a[i],如果i要是答案需要指针移动多少次,然后算完,排个序,指针移动最少的就是答案. #include <bits/stdc++.h> #defi ...
golang官方包管理vendor模式无法引用非go文件
主页微信公众号:密码应用技术实战博客园首页:https://www.cnblogs.com/informatics/ 背景&问题 golang作为高级计算机语言之一,在云原生以及web网站 ...
java服务OOM和CPU飙升排查
一.JVM参数 -D 可以是系统默认有的参数,也可以是自己定义的参数 -Dfile.encoding=UTF-8 -Dmaven.test.skip=true -Dspring.profiles.ac ...
Zabbix“专家坐诊”第186期问答汇总
问题一 Q:这两个键值vm.memory.size[pused]和vm.memory.util监控内存使用率有什么区别,使用那个监控使用率更好,支持windows系统和Linux系统么,对agent端 ...
ImageClipboard js粘贴剪切板图片，已测试，可用，可获得base64
ImageClipboard js粘贴剪切板图片,已测试,可用,可获得base64 具体用到自己项目的时候,拿源码改成自己的库,从写一遍 3个小问题 onpaste 执行了两遍,一次是图片加载完成,一 ...
【LLM】在Colab上使用免费T4 GPU进行Chinese-Llama-2-7b-4bit推理
一.配置环境 1.打开colab,创建一个空白notebook,在[修改运行时环境]中选择15GB显存的T4 GPU. 2.pip安装依赖python包 !pip install --upgrade ...
华为sound x智能音箱初体验
外观颜值在这个网红遍地的年代,好看的皮囊是那么的重要.很多东西,买与不买,只是你在电脑的橱上看它一眼.颜值对一个消费电子产品来说,在这个虚拟的互联网世界中是那么的重要.sound x的初次看来, ...
vue+springboot图片上传和显示
一.前言在使用spring boot做后台系统,vue做前端系统,给客户开发一套系统时候,其中用到了图片上传和显示的功能. 二.环境前端:vue 前端组件:tinymce 后台:spring bo ...
Hexo Next主题vercel页面NOT_FOUND
前端时间将博客部署到了Vercel上,使用的是Hexo Next主题.发现某些博文点进去以后会出现找不到的情况: 404: NOT_FOUND Code: NOT_FOUND ID: ... ... ...

Python 爬虫之 xpath

0x01 XML 基础

0x02 解析 XML

0x03 解析 HTML

Python 爬虫之 xpath的更多相关文章

随机推荐

热门专题