scrapy选择器归纳
python 爬虫: srcrapy框架xpath和css选择器语法
Xpath基本语法
一、常用的路径表达式:
| 表达式 | 描述 | 实例 |
|---|---|---|
| nodename | 选取nodename节点的所有子节点 | //div |
| / | 从根节点选取 | /div |
| // | 选取所有的节点,不考虑他们的位置 | //div |
| . | 选取当前节点 | ./div |
| .. | 选取当前节点的父节点 | .. |
| @ | 选取属性 | //@class |
举例元素标签为artical标签
| 语法 | 说明 | |
|---|---|---|
| artical | 选取所有artical元素的子节点 | |
| /artical | 选取根元素artical | |
| ./artical | 选取当前元素下的artical | |
| ../artical | 选取父元素下的artical | |
| artical/a | 选取所有属于artical的子元素a元素 | |
| //div | 选取所有div 子元素,无论div在任何地方 | |
| artical//div | 选取所有属于artical的div 元素,无论div元素在artical的任何位置 | |
| //@class | 选取所有名为class 的属性的 | |
| a/@href | 选取a标签的href属性 | |
| a/text() | 选取a标签下的文本 | |
| string(.) | 解析出当前节点下所有文字 | |
| string(..) | 解析出父节点下所有文字 |
二、谓语
谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点
| 语法 | 说明 |
|---|---|
| /artical/div[1] | 选取所有属于artical 子元素的第一个div元素 |
| /artical/div[last()] | 选取所有属于artical子元素的最后一个div元素 |
| /artical/div[last()-1] | 选取所有属于artical子元素的倒数第2个div元素 |
| /artical/div[position()<3] | 选取所有属于artical子元素的前2个div元素 |
| //div[@class] | 选取所有拥有属性为class的div节点 |
| //div[@class="main"] | 选取所有div下class属性为main的div节点 |
| //div[price>3.5] | 选取所有div下元素值price大于3.5的节点 |
三、通配符
Xpath通过通配符来选取未知的XML元素
表达式| 结果//* |选取所有元素//div/* |选取所有属于div元素的所有子节点//div[@*] |选取所有带属性的元素
四、取多个路径
使用“|”运算符可以选取多个路径
| 表达式 | 结果 |
|---|---|
| //div | //table | 选取文档中所有的div和table节点 |
| //div/a | //div/p | 选取所有div元素的a和p 元素 |
| artical/div/pl | //span | 选取所有div下的pl和文档中所有span |
五、Xpath轴
轴可以定义相对于当前节点的节点集
| 轴名称 | 表达式 | 描述 |
|---|---|---|
| ancestor | ./ancestor::* | 选取当前节点的所有先辈节点(父、祖父) |
| ancestor-or-self | ./ancestor-or-self::* | 选取当前节点的所有先辈节点以及节点本身 |
| descendant | ./descendant::* | 返回当前节点的所有后代节点(子节点、孙节点) |
| child | ./child::* | 返回当前节点的所有子节点 |
| parent | ./parent::* | 选取当前节点的父节点 |
| following | ./following::* | 选取文档中当前节点结束标签后的所有节点 |
| following-sibling | ./following-sibling::* | 选取当前节点之后的兄弟节点 |
| preceding | ./preceding::* | 选取文档中当前节点开始标签前的所有节点 |
| preceding-sibling | ./preceding-sibling::* | 选取当前节点之前的兄弟节点 |
| self | ./self::* | 选取当前节点 |
| attribute | ./attribute::* | 选取当前节点的所有属性 |
六、功能函数
使用功能函数能够更好的进行模糊搜索
| 函数 | 用法 | 解释 |
|---|---|---|
| starts-with | //div[starts-with(@id,"ma")] | 选取id值以ma开头的div节点 |
| contains | //div[contains(@id,"ma")] | 选取所有id值包含ma的div节点 |
| and | //div[contains(@id,"ma") and contains(@id,"in")] | 选取id值包含ma和in的div节点 |
| text() | //div[contains(text(),"ma")] | 选取节点文本包含ma的div节点 |
CSS选择器语法
| 语法 | 说明 |
|---|---|
| * | 选择所有节点 |
| #container | 选择id为container的节点 |
| .container | 选择所有class包含container的节点 |
| div,p | 选择所有 div 元素和所有 p 元素 |
| li a | 选取所有li 下所有a节点 |
| ul + p | 选取ul后面的第一个p元素 |
| div#container > ul | 选取id为container的div的第一个ul子元素 |
| ul ~p | 选取与ul相邻的所有p元素 |
| a[title] | 选取所有有title属性的a元素 |
| a[href="http://baidu.com"] | 选取所有href属性为http://baidu.com的a元素 |
| a[href*="baidu"] | 选取所有href属性值中包含baidu的a元素 |
| a[href^="http"] | 选取所有href属性值中以http开头的a元素 |
| a[href$=".jpg"] | 选取所有href属性值中以.jpg结尾的a元素 |
| input[type=radio]:checked | 选择选中的radio的元素 |
| div:not(#container) | 选取所有id为非container 的div属性 |
| li:nth-child(3) | 选取第三个li元素 |
| li:nth-child(2n) | 选取第偶数个li元素 |
| a::attr(href) | 选取a标签的href属性 |
| a::text | 选取a标签下的文本 |
scrapy选择器归纳的更多相关文章
- JQuery总结:选择器归纳、DOM遍历和事件处理、DOM完全操作和动画 (转)
JQuery总结:选择器归纳.DOM遍历和事件处理.DOM完全操作和动画 转至元数据结尾 我们后台可能用到的页面一般都是用jquery取值赋值的,发现一片不错的文章 目录 JQuery总结一:选择器归 ...
- scrapy选择器主要用法
# 命令行输入:scrapy shell +链接,会自动请求url,得到的相应默认为response,开启命令行交互模式 scrapy shell http://doc.scrapy.org/en/l ...
- CSS层叠样式选择器归纳
常用选择器 1.1 类型选择器:用来寻找特定类型的元素 标签 { 声明 } p { color:black; } h1 { font-weight:bold; } 1.2 后代选择器: 选择一个元 ...
- Scrapy选择器的用法
1.构造选择器: >>> response = HtmlResponse(url='http://example.com', body=body) >>> Sele ...
- 使用scrapy选择器selector解析获取百度结果
0x00 概述 需要成功安装scrapy,安装方法与本文无关,不在这多说. 0x01 配置settings 由于百度对于user-agent进行验证,所以需要添加. settings.py中找到DEF ...
- scrapy 选择器
1.lxml(转自简书) from lxml import etree2 import requests3 45 url = " "6 html = requests.get(ur ...
- Scrapy学习篇(六)之Selector选择器
当我们取得了网页的response之后,最关键的就是如何从繁杂的网页中把我们需要的数据提取出来,python从网页中提取数据的包很多,常用的有下面的几个: BeautifulSoup它基于HTML代码 ...
- scrapy框架之Selectors选择器
Selectors(选择器) 当您抓取网页时,您需要执行的最常见任务是从HTML源中提取数据.有几个库可以实现这一点: BeautifulSoup是Python程序员中非常流行的网络抓取库,它基于HT ...
- 小白学 Python 爬虫(35):爬虫框架 Scrapy 入门基础(三) Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
随机推荐
- 如何快速定位找出SEGV内存错误的程序Bug
通过查看php日志/usr/local/php/var/log/php-fpm.log,有如下警告信息: [16-Mar-2015 16:03:09] WARNING: [pool www] chil ...
- servlet web.xml配置选项详解
一般的web工程中都会用到web.xml,web.xml主要包括一些配置标签,例如Filter.Listener.Servlet等,可以用来预设容器的配置,可以方便的开发web工程.但是web.xml ...
- PID控制器开发笔记之二:积分分离PID控制器的实现
前面的文章中,我们已经讲述了PID控制器的实现,包括位置型PID控制器和增量型PID控制器.但这个实现只是最基本的实现,并没有考虑任何的干扰情况.在本节及后续的一些章节,我们就来讨论一下经典PID控制 ...
- Confluence 6 识别慢性能的宏
Page Profiling 给你了有关页面在载入的时候操作缓慢的邪教,你可以将下面的内容添加到调试(debug)级别: Version 3.1 及其后续版本 设置包名字为 com.atlassian ...
- linux之cp命令(转载)
Linux中使用cp命令复制文件(夹),本文就日常工作中常用的cp命令整理如下. 一.复制一个源文件到目标文件(夹). 命令格式为:cp 源文件 目标文件(夹) 这个是使用频率最多的命令,负责把一个源 ...
- Maven集成SSM
目录 Maven 集成SSM 添加log4j配置文件 配置web.xml 添加编码过滤器 添加put和delete请求 配置springmvc.xml 配置文件上传 配置druid连接池信息 配置sq ...
- mysql中的sql
变量 用户变量: 在用户变量前加@ 系统变量: 在系统变量前加@@ 运算符 算术运算符有: +(加), -(减), * (乘), / (除) 和% (求模) 五中运算 位运算符有: & (位于 ...
- mysql 修改配置文件my.cnf失败
一.连接Mysql提示无法通过socket的解决方法连接到本地MySQL服务器 http://www.aiezu.com/db/mysql_cant_connect_through_socket.ht ...
- mysql登录报错:ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)
在MySQL登录时出现Access denied for user 'root'@'localhost' (using password: YES) 拒绝访问 对于出现拒绝访问root用户的解决方案错 ...
- Nginx配置TCP请求转发
Nginx配置TCP请求转发 1.TCP请求转发基于stream在1.9版本前,需要单独编译安装该组建: # 依赖服务 [root@baolin conf]#yum -y install pcre-d ...