Python爬虫基础讲解（七）：xpath的语法

xpath语法

XPath使用路径表达式来选取XML文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

下面列出了最有用的表达式：

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

选取未知节点

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

案例

import parsel # str --> Selector对象具有xpath方法

提取到的数据返回一个列表

html_str = """

    <div>

          <ul>

                <li class="item-i">

                    <a href="link1.html">第一个</a>

                </li>

                <1iclass="item-2个>J学言

                    <a href="link2. html">第二个</a>

                </li>

                <li class="item-3">

                    <a href="link3.html">第三个</a>

                </li>

                <li class="item-4">

                    <a href="link4.html">第四个</a>

                </li>

                 <li class="item-5">

                    <a href="link5.html">第五个</a>

                </li>

          </ul>

    </div>

# 1、转换数据类型

# data = parsel.Selector(html_str).extract()

# parsel能够把缺失的html标签补充完成

data = parsel.Selector (html_str)  # parsel能够把缺失的html标签补充完成

# 2、解析数据--list类型

# print(data)

# 2、1从根节点开始，获取所有<a>标签

result = data.xpath(' /html/body/ div/ul/li/a').extract()

# 2、2跨节点获取所有<a>标签

result = data. xpath('/ /a').extract()

# 2、3选取当前节点――使用场景:需要对选取的标签的下一级标签进行多次提取

result = data.xpath('//ul')

result2 = result.xpath(' ./li').extract()  #提取当前节点下的<li>标签

result3 = result.xpath(' ./li/a').extract()  #提取当前节点下的<a>标签

# 2、4选取当前节点的父节点,获取父节点的class属性值

result = data.xpath(' //a')

result4 = result.xpath('../@class').extract()

# 2、5获取第三个<li>标签的节点（两种方法)

result = data. xpath('//li[3]').extract()

result = data. xpath(' / /1i')[2].extract()

# 2、6 通过定位属性的方法获取第四个<a>标签

result = data. xpath(' / / a [@href="link4.html"]’).extract()

#2、7用属性定位标签，获取第四个<a>标签包裹的文本内容

result = data.xpath('//a[@href="link4.html"]/text()' ). extract()

#2、8获取第五个<a>标签的href属性值

result = data. xpath(' / /1i[5]/a/@href').extract(#了解模糊查询

result = data.xpath('//li[contains(@class,"it")]’).extract ()

#同时获取<li>标签的属性以及<a>标签的文本

# result = data.xpath('//li/@class|//a/text()').extract()

print (result)

如何选取多个标签?

通过在路径表达式中使用“”运算符，您可以选取若干个路径。(逻辑运算符)

小结

xpath的概述XPath (XML Path Language),解析查找提取信息的语言
xpath的节点关系:根节点,子节点,同级节点
xpath的重点语法获取任意节点://
xpath的重点语法根据属性获取节点:标签[@属性=’值’]
xpath中获取节点的文本:text )
xpath的获取节点属性值:@属性名

Python爬虫基础讲解（七）：xpath的语法的更多相关文章

python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...
Python爬虫之lxml-etree和xpath的结合使用
本篇文章给大家介绍的是Python爬虫之lxml-etree和xpath的结合使用(附案例),内容很详细,希望可以帮助到大家. lxml:python的HTML / XML的解析器官网文档:http ...
Python爬虫基础——XPath语法的学习与lxml模块的使用
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂: XPath:语法简单,可以满足绝大部分的需求: 所以,如果你可以根据自己的需要进行选择. 一.首先,我们需要为 ...
12.Python爬虫利器三之Xpath语法与lxml库的用法
LXML解析库使用的是Xpath语法: XPath 是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 XPath可以用来提取信息 XPath比 ...

随机推荐

安装anaconda和第三方库tushare
安装anaconda和第三方库tushare 血泪教训下载32位的anaconda(同你Python版本,不然会碰到第三方库无法import的问题) 安装anaconda 安装到C盘会比较快,安装到 ...
wrf模拟的domain图绘制
wrf模拟的区域绘制,domain图,利用python的cartopy库绘制模拟区域参考Liang Chen的draw_wrf_domian.py这个代码, 出处python画wrf模式的模拟区域 ...
JAVA面试-计算机网络-TCP三次握手
学习原因这个是面试的一个常问热点,所以务必要掌握. 通俗示例小红是人事部门的员工,现在正在招收IT人员,小明看到招聘信息和待遇,感觉很适合自己,所以准备和小红发消息了解具体情况.而简历在本故事中代 ...
设计模式——从工厂方法模式到 IOC/DI思想
回顾简单工厂回顾:从接口的角度去理解简单工厂模式前面说到了简单工厂的本质是选择实现,说白了是由一个专门的类去负责生产我们所需要的对象,从而将对象的创建从代码中剥离出来,实现松耦合.我们来看一个例子 ...
python函数之有参装饰器
一.为什么要有有参装饰器? 来看之前的无参装饰器 # 无参装饰器 def outter(func): def wrapper(*args,**kwargs): start = time.time() ...
Linux 服务器性能测试报告-sysbench命令实践
Linux 服务器性能测试报告我们使用linux 工具sysbench 来测试linux服务器性能,目前在Centos上进行操作 Install sysbench yum -y install sy ...
干货！Apache Hudi如何智能处理小文件问题
1. 引入 Apache Hudi是一个流行的开源的数据湖框架,Hudi提供的一个非常重要的特性是自动管理文件大小,而不用用户干预.大量的小文件将会导致很差的查询分析性能,因为查询引擎执行查询时需要进 ...
java面试-JVM常用的基本配置参数有哪些？
1.-Xms 初始大小内存,默认为物理内存 1/64,等价于 -XX:InitialHeapSize 2.-Xmx 最大分配内存,默认为物理内存的 1/4,等价于 -XX:MaxHeapSize 3. ...
茫茫内存，我该如何用 windbg 找到你 ?
一:背景 1. 讲故事前天wx上有个朋友丢给我一个dump,让我帮忙鉴定一下某些敏感信息在内存中是否也是加密的,现在数据安全很重要,不仅数据库中的信息要加密,灌到内存后数据同样也需密文存储,随用随解 ...
thinkphp各版本常用漏洞总结
0x01 漏洞分析及复现 1.漏洞分析漏洞影响范围: Thinkphp 5.1.0 - 5.1.31Thinkphp 5.0.5 - 5.0.23 漏洞产生原因: Thinkphp5.x版本(5.0 ...

Python爬虫基础讲解（七）：xpath的语法

Python爬虫基础讲解（七）：xpath的语法的更多相关文章

随机推荐

热门专题