Python爬虫：Xpath语法笔记

一、选取节点
常用的路劲表达式：

表达式	描述	实例
nodename	选取nodename节点的所有子节点	xpath(‘//div’)	选取了div节点的所有子节点
/	从根节点选取	xpath(‘/div’)	从根节点上选取div节点
//	选取所有的当前节点，不考虑他们的位置	xpath(‘//div’)	选取所有的div节点
.	选取当前节点	xpath(‘./div’)	选取当前节点下的div节点
..	选取当前节点的父节点	xpath(‘..’)	回到上一个节点
@	选取属性	xpath（’//@calss’）	选取所有的class属性

二、谓语

谓语被嵌在方括号内，用来查找某个特定的节点或包含某个制定的值的节点

实例：

表达式	结果
xpath(‘/body/div[1]’)	选取body下的第一个div节点
xpath(‘/body/div[last()]’)	选取body下最后一个div节点
xpath(‘/body/div[last()-1]’)	选取body下倒数第二个div节点
xpath(‘/body/div[positon()<3]’)	选取body下前两个div节点
xpath(‘/body/div[@class]’)	选取body下带有class属性的div节点
xpath(‘/body/div[@class=”main”]’)	选取body下class属性为main的div节点
xpath(‘/body/div[price>35.00]’)	选取body下price元素值大于35的div节点

三、通配符

Xpath通过通配符来选取未知的XML元素

表达式	结果
xpath（’/div/*’）	选取div下的所有子节点
xpath(‘/div[@*]’)	选取所有带属性的div节点

四、取多个路径

使用“|”运算符可以选取多个路径

表达式	结果
xpath(‘//div\|//table’)	选取所有的div和table节点

五、Xpath轴

轴可以定义相对于当前节点的节点集

轴名称	表达式	描述
ancestor	xpath(‘./ancestor::*’)	选取当前节点的所有先辈节点（父、祖父）
ancestor-or-self	xpath(‘./ancestor-or-self::*’)	选取当前节点的所有先辈节点以及节点本身
attribute	xpath(‘./attribute::*’)	选取当前节点的所有属性
child	xpath(‘./child::*’)	返回当前节点的所有子节点
descendant	xpath(‘./descendant::*’)	返回当前节点的所有后代节点（子节点、孙节点）
following	xpath(‘./following::*’)	选取文档中当前节点结束标签后的所有节点
following-sibing	xpath(‘./following-sibing::*’)	选取当前节点之后的兄弟节点
parent	xpath(‘./parent::*’)	选取当前节点的父节点
preceding	xpath(‘./preceding::*’)	选取文档中当前节点开始标签前的所有节点

preceding-sibling	xpath(‘./preceding-sibling::*’)	选取当前节点之前的兄弟节点
self	xpath(‘./self::*’)	选取当前节点

六、功能函数

使用功能函数能够更好的进行模糊搜索

函数	用法	解释
starts-with	xpath(‘//div[starts-with(@id,”ma”)]‘)	选取id值以ma开头的div节点
contains	xpath(‘//div[contains(@id,”ma”)]‘)	选取id值包含ma的div节点
and	xpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘)	选取id值包含ma和in的div节点
text()	xpath(‘//div[contains(text(),”ma”)]‘)	选取节点文本包含ma的div节点

scrapy xpath文档：http://doc.scrapy.org/en/0.14/topics/selectors.html

Python爬虫：Xpath语法笔记的更多相关文章

python爬虫xpath的语法
有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
python爬虫xpath
又是一个大晴天,因为马上要召开十九大,北京地铁就额外的拥挤,人贴人到爆炸,还好我常年挤地铁早已练成了轻功水上漂,挤地铁早已经不在话下. 励志成为一名高级测试工程师的我,目前还只是个菜鸟,难得有机会,公 ...
xpath语法笔记
xpath是在xml文档中查找信息的语言, 其语法整理如下: 路径表达式(选取节点) div div下的所有子节点 /div 根节点下的div //div 匹配所有的div . 当前节点 .. 父节点 ...
python语言基础语法笔记<note2--面向对象编程>
Python面向对象编程(OOP) 一.面向对象过程的优点特征: 封装模型的特征和能力打包在一起模型的改变由模型自身完成隐藏模型的细节,外界只能使用,不能改变继承符合自然界分类规律快速实现 ...
Python爬虫初学者学习笔记（带注释）
一,安装编程工具并进入编程界面首先去https://www.continuum.io/downloads/网站下载Anaconda工具并安装;打开cmd,输入jupyter notebook并回车( ...
python语言基础语法笔记<note1库安装和工具安装>
Python是一门入门简单的编程语言,它的安装和搭建也非常简单.在大部分的发行Linux版本上都预装了python2,部分也预装了python3,需要查看Linux上是否安装Python,只需要在命 ...
Python爬虫例子（笔记，不适合参考，愿意看的可以看看）
话不多说,直接上代码: import re import csv #爬虫的一个小例子,爬的是百度贴吧(网页版)某个帖子的各个楼层的用户名,发言内容和发言时间(使用到了正则表达式) source3.tx ...
python爬虫----XPath
1.知道本节点元素,如何定位到兄弟元素详情见博客 XML代码见下 bt1在文档中只出现一次,所以很容易获取到bt1中内容,那怎么根据<td class='bt1'>来获取bt2中的内容 ...

随机推荐

什么叫哈希表(Hash Table)
散列表(也叫哈希表),是根据关键码值直接进行访问的数据结构,也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.这个映射函数叫做散列函数,存放记录的数组叫做散列表. - 数据结构 ...
Asp.Net Core--基于声明的授权
翻译如下: 当创建身份时,其可以被分配由可信方发布的一个或多个声明. 索赔是名称值对,表示主题是什么,而不是主体可以做什么. 例如,您可能有驾驶执照,由当地驾驶执照颁发. 您的驾驶执照上有您的出生日期 ...
如何查看oracle 的package源码
select text from dba_source t where t.TYPE = 'PACKAGE BODY' and name ='EMR_RECORD_INPUT' order by li ...
css动画 animation
今天用css做了一个简单的三角上下移动的一个小动画,说白了就是在改变该物体的height值.除了这个方法,还可以用js. 一.在用css写动画时,一定要记住兼容性问题.如何解决该兼容性?在前面加内核前 ...
序列化对象为xml字符串
/// <summary> /// 序列化对象为xml字符串 /// </summary> /// <param name="obj" ...
下拉列表 select-option ; select-optgroup-option
HTML中的下拉列表: <select> <option value ="1">Volvo</option> <option value ...
SpringMVC学习（二）
SpringMVC入门(注解方式) 需求实现商品查询列表功能. 第一步:创建Web项目 springmvc02 第二步:导入jar包第三步:配置前端控制器在WEB-INF\web.xml中配置前 ...
xml schema xmlns xmlns:xsi xsi:schemaLocation targetnamespace
先上一段xml文档 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="htt ...
C之按位运算符
http://www.cnblogs.com/Kazaf/archive/2012/03/19/2406006.html
注解：【有连接表的】Hibernate双向1->N关联（仅N端控制关联关系）
Person与Address关联:双向1->N,[有连接表的],N端控制关联关系 Person.java package org.crazyit.app.domain; import java. ...

Python爬虫：Xpath语法笔记

Python爬虫：Xpath语法笔记的更多相关文章

随机推荐

热门专题