XPath总结

XPath总结

一、何为XPath

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的

二、XPath语法

1、语法

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
.	选取当前节点
..	选取当前节点的父节点
@	选取属性
contains	包含，模糊匹配
*	选取所有节点
\|	与

2、实例

路径表达式	结果
//book/page	选取根目录下所有book标签中的page标签
//book[@name='hong']	选取根目录下所有name属性是hong的book标签
//*[@name='key']	选取根目录下所有name属性是key的任意标签
//*[@name，'key_']	选取根目录下所有name属性包含key的任意标签
//*[@id="author"]/a[3]	选取根目录下所有id属性是author的任意标签下子标签中的第3个a标签
//title[@*]	选取所有带有属性的 title 元素
//title \| //price	选取文档中的所有 title 和 price 元素。

三、XPath轴

定义所选节点与当前节点之间的树关系

1、XPath轴语法

轴名称::节点测试[谓语]

轴名称	结果
ancestor	选取当前节点的所有先辈（父、祖父等）
ancestor-or-self	选取当前节点的所有先辈（父、祖父等）以及当前节点本身
attribute	选取当前节点的所有属性
child	选取当前节点的所有子元素
descendant	选取当前节点的所有后代元素（子、孙等）
descendant-or-self	选取当前节点的所有后代元素（子、孙等）以及当前节点本身
following	选取文档中当前节点的结束标签之后的所有节点
namespace	选取当前节点的所有命名空间节点
parent	选取当前节点的父节点
preceding	选取文档中当前节点的开始标签之前的所有节点
preceding-sibling	选取当前节点之前的所有同级节点
self	选取当前节点

2、XPath轴实例

例子	结果
child::book	选取所有属于当前节点的子元素的 book 节点
attribute::lang	选取当前节点的 lang 属性
child: 爬虫（十一）—— XPath总结的更多相关文章爬虫常用Xpath和CSS3选择器对比爬虫常用Xpath和CSS3选择器对比 1. 简介 CSS是来配合HTML工作的,和Xpath对比起来,CSS选择器通常都比较短小,但是功能不够强大.CSS中的空白符' '和Xpath的'//'都表示 ... python爬虫：XPath语法和使用示例 python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ... Python爬虫之xpath语法及案例使用 Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ... 非常全的一份Python爬虫的Xpath博文非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ... 爬虫神器xpath的用法(三) xpath的多线程爬虫 #encoding=utf-8 ''' pool = Pool(4) cpu的核数为4核 results = pool.map(爬取函数,网址列表) ''' from mult ... 爬虫神器XPath，程序员带你免费获取周星驰等明星热门电影本教程由"做全栈攻城狮"原创首发,本人大学生一枚平时还需要上课,但尽量每日更新文章教程.一方面把我所习得的知识分享出来,希望能对初学者有所帮助.另一方面总结自己所学,以备以后查看. ... 互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）版权声明:本文为博主原创文章,未经博主允许不得转载. 相关教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课 ... 【爬虫】Xpath高级用法 xpath速度比较快,是爬虫在网页定位中的较优选择,但是很多网页前端代码混乱难以定位,而学习定位也较为不易(主要是全面的教程较少),这里列出一点编程过程中可能有用的东西,欢迎共同学习批评指正.试验环境 ... 爬虫 selenium+Xpath 爬取动态js页面元素内容介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如 ... 抓包分析、多线程爬虫及xpath学习 1.抓包分析 1.1 Fiddler安装及基本操作由于很多网站采用的是HTTPS协议,而fiddler默认不支持HTTPS,先通过设置使fiddler能抓取HTTPS网站,过程可参考(https:/ ... 随机推荐问题 J: 老肖数等式问题 J: 老肖数等式时间限制: 1 Sec 内存限制: 128 MB提交: 1594 解决: 741[提交] [状态] [命题人:jsu_admin] 题目描述老肖前几年当了小学数学老师,他 ... Flutter 初探 - flutter 安装经过许久的关注,及最近google算是真正地推行flutter时,加上掘金小册也有相应的教程,我知道自己得跟着这一波潮流学习了,不然迟早会面临着小程序的危(大家都会了就你不会), ... Java解析XML介绍开发十年,就只剩下这套架构体系了! >>> XML解析器提供了访问或修改用来表示数据的xml文件的能力.Java中提供了多种方式来解析xml文件. 主要分为两类,包括解析XML文 ... SwiftUI 实战：从 0 到 1 研发一个 App 心得感悟起初看到 WWDC 上的演示 SwiftUI 时,我就觉得 SwiftUI 有种陌生的熟悉感(声明式语法),所以体验下,看看有没有什么启发. 先说下整体项目完成下来的感受: 用 Swift ... ReactiveCocoa详解最近看了大神的博客后,感觉该对ReactiveCocoa做一个了断了. 首先大致的对以下关于ReactiveCocoa内容做一个简单的总结,其他的后续更新 1.ReactiveCocoa的操作思想 2 ... iOS 应用配置及证书生成教程简介首先你需要有一个苹果的开发者帐号,一台苹果电脑.点击查看苹果开发者账号注册流程本教程需完成应用信息配置,包括如下两个基本配置: AppID Bundle ID 同时,生成如下三个证书文件及对 ... python面向对象的三大特征--继承子类调用父类方法 #在子类中调用父类方法 class Vehicle: country="China" def __init__(self,name,speed,load,power): self. ... selenium下拉菜单 from selenium.webdriver.support.select import Selectdef select_value(self, css, value): ''' 选中 ... [NOI2004]郁闷的出纳员（平衡树） [NOI2004]郁闷的出纳员题目链接题目描述 OIER公司是一家大型专业化软件公司,有着数以万计的员工.作为一名出纳员,我的任务之一便是统计每位员工的工资.这本来是一份不错的工作,但是令人郁闷的 ... 记录一次 Linux crontab 执行django 脚本失败的经历和解决办法目的是想通过定时任务来执行一次数据统计,本来可以用celery来做,但是想着这个项目整个就没用到异步的地方,所以决定用crontab来做.之前做过数据库的热备份,想来用该没啥问题,但是现实打脸啪啪响. ... 热门专题 sql 保留两位小数,输出百分比 css字体包下载在哪下载 js导出pdf为多页的情况 html点跟井号有什么区别 WeQuant教程—1.2 从简单的量化系统开始小程序获取页面url 全国各省份的市区县 .json文件 mysql数据转json FPGA那些事儿《概念篇》 sql 怎样关联多个table_schema,查询总的表数量 mybatis-plus类中生不生成父类 centos添加管理员用户 mtk8195支持hdmi mybatis if标签不能使用 UNION ALL 微信小程序百度ocr读身份证 VBA按键是什么对象 c# reportviewer 打印设置 windows任意文件下载 pudn 免费下载账号 logstash 自启动 Home Powered By WordPress

例子

结果

child::book

选取所有属于当前节点的子元素的 book 节点

attribute::lang

选取当前节点的 lang 属性

child:

爬虫（十一）—— XPath总结的更多相关文章

爬虫常用Xpath和CSS3选择器对比
爬虫常用Xpath和CSS3选择器对比 1. 简介 CSS是来配合HTML工作的,和Xpath对比起来,CSS选择器通常都比较短小,但是功能不够强大.CSS中的空白符' '和Xpath的'//'都表示 ...
python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
非常全的一份Python爬虫的Xpath博文
非常全的一份Python爬虫的Xpath博文 Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法. 一.开始使用首先我们需要得到一个 HTML 源代码,用来模拟爬取网页中的源代 ...
爬虫神器xpath的用法(三)
xpath的多线程爬虫 #encoding=utf-8 ''' pool = Pool(4) cpu的核数为4核 results = pool.map(爬取函数,网址列表) ''' from mult ...
爬虫神器XPath，程序员带你免费获取周星驰等明星热门电影
本教程由"做全栈攻城狮"原创首发,本人大学生一枚平时还需要上课,但尽量每日更新文章教程.一方面把我所习得的知识分享出来,希望能对初学者有所帮助.另一方面总结自己所学,以备以后查看. ...
互联网金融爬虫怎么写－第一课 p2p网贷爬虫（XPath入门）
版权声明:本文为博主原创文章,未经博主允许不得转载. 相关教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课 ...
【爬虫】Xpath高级用法
xpath速度比较快,是爬虫在网页定位中的较优选择,但是很多网页前端代码混乱难以定位,而学习定位也较为不易(主要是全面的教程较少),这里列出一点编程过程中可能有用的东西,欢迎共同学习批评指正.试验环境 ...
爬虫 selenium+Xpath 爬取动态js页面元素内容
介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如 ...
抓包分析、多线程爬虫及xpath学习
1.抓包分析 1.1 Fiddler安装及基本操作由于很多网站采用的是HTTPS协议,而fiddler默认不支持HTTPS,先通过设置使fiddler能抓取HTTPS网站,过程可参考(https:/ ...

随机推荐

问题 J: 老肖数等式
问题 J: 老肖数等式时间限制: 1 Sec 内存限制: 128 MB提交: 1594 解决: 741[提交] [状态] [命题人:jsu_admin] 题目描述老肖前几年当了小学数学老师,他 ...
Flutter 初探 -
flutter 安装经过许久的关注,及最近google算是真正地推行flutter时,加上掘金小册也有相应的教程,我知道自己得跟着这一波潮流学习了,不然迟早会面临着小程序的危(大家都会了就你不会), ...
Java解析XML介绍
开发十年,就只剩下这套架构体系了! >>> XML解析器提供了访问或修改用来表示数据的xml文件的能力.Java中提供了多种方式来解析xml文件. 主要分为两类,包括解析XML文 ...
SwiftUI 实战：从 0 到 1 研发一个 App
心得感悟起初看到 WWDC 上的演示 SwiftUI 时,我就觉得 SwiftUI 有种陌生的熟悉感(声明式语法),所以体验下,看看有没有什么启发. 先说下整体项目完成下来的感受: 用 Swift ...
ReactiveCocoa详解
最近看了大神的博客后,感觉该对ReactiveCocoa做一个了断了. 首先大致的对以下关于ReactiveCocoa内容做一个简单的总结,其他的后续更新 1.ReactiveCocoa的操作思想 2 ...
iOS 应用配置及证书生成教程
简介首先你需要有一个苹果的开发者帐号,一台苹果电脑.点击查看苹果开发者账号注册流程本教程需完成应用信息配置,包括如下两个基本配置: AppID Bundle ID 同时,生成如下三个证书文件及对 ...
python面向对象的三大特征--继承子类调用父类方法
#在子类中调用父类方法 class Vehicle: country="China" def __init__(self,name,speed,load,power): self. ...
selenium下拉菜单
from selenium.webdriver.support.select import Selectdef select_value(self, css, value): ''' 选中 ...
[NOI2004]郁闷的出纳员（平衡树）
[NOI2004]郁闷的出纳员题目链接题目描述 OIER公司是一家大型专业化软件公司,有着数以万计的员工.作为一名出纳员,我的任务之一便是统计每位员工的工资.这本来是一份不错的工作,但是令人郁闷的 ...
记录一次 Linux crontab 执行django 脚本失败的经历和解决办法
目的是想通过定时任务来执行一次数据统计,本来可以用celery来做,但是想着这个项目整个就没用到异步的地方,所以决定用crontab来做.之前做过数据库的热备份,想来用该没啥问题,但是现实打脸啪啪响. ...

爬虫（十一）—— XPath总结

XPath总结

一、何为XPath

二、XPath语法

1、语法

2、实例

三、XPath轴

1、XPath轴语法

2、XPath轴实例

爬虫（十一）—— XPath总结的更多相关文章

随机推荐

热门专题