scrapy_xpath
什么是xpath?
- 路径表达式 在xml和html中进行导航
- 包含标准函数库
- 遵循w3c标准
xpth节点关系是什么?
- 父节点
- 子节点
- 兄弟节点
- 先辈节点
- 后代节点
xpth语法
- a 找所有a标签
- / article 找根元素article标签
- article/a 找所有属于article子标签的a标签
- //div 找根层级 下 所有div标签
- article//div 找article标签 下 所有div标签
- //@class 去所有标签中class属性值,src,href,id等属性
- a/@href 取所有a标签中href属性
xpath-谓法
- /article/div[1] 找article 子标签 的第一个div标签
- /article/div[last()] 找article目录下倒数一个div标签
- /article/div[last()-1] 找article目录下倒数第二个div标签
- //div[@lang] 找所有拥有lang属性的div标签
- //div[@lang=’eng’] 找所有lang=’eng 的div标签
- /div/* div标签下所有子标签
- //* 提取所有元素
- //div[@*] 提取div中有属性的标签
- /div/a | /div/p 提取div下所有a和p标签
如何获取抓取节点的值?
/text() 获得文本值
a['href'] 获取一个a节点的href属性值
xpath返回的对象可以继续xpath进行筛选
.extract() 返回data对应的数组值列表
对有多个属性的标签如何抓取?
[contains(@属性,属性值) ]
scrapy_xpath的更多相关文章
随机推荐
- Android-AnsyncTask异步任务
同步和异步的概念区别: 同步,必须执行完成某个问题后才能继续执行其他的. 异步,我会去先执行其他问题,你执行完之后返回给我一个结果就可以. android中为什么要引用异步任务呢 android启动的 ...
- 【算法】赫夫曼树(Huffman)的构建和应用(编码、译码)
参考资料 <算法(java)> — — Robert Sedgewick, Kevin Wayne <数据结构> ...
- 大搜车知乎live中的面试题结题方法记录
1.HTML&CSS(分别10分) 1. 一个div,宽度是100px,此时设置padding是20px,添加一个什么css属性可以让div的实际宽度仍然保持在100px,而不是140px? ...
- 2017 Multi-University Training Contest - Team 9 1004&&HDU 6164 Dying Light【数学+模拟】
Dying Light Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)Tot ...
- Springboot-shiro-redis实现登录认证和权限管理
Springboot-shiro-redis实现登录认证和权限管理 在学习之前: 首先进行一下Apache Shiro和Shiro比较: Apache Shiro是一个功能强大.灵活的,开源的安全框架 ...
- CLR 简介
(一)CLR介绍 CLR是一个可以由多编程语言使用的运行时,CLR的核心功能:内存管理,程序集加载,安全性,异常处理,线程同步等等.可以被很多属于微软系列的开发语言使用. 事实上,在运行时,CLR根本 ...
- 微信小程序初使心得【微信小程序快速入门】
摘要: 2016年推出微信小程序,时至今日,历经几个版本的更新,已形成了相对实用和稳定的服务平台.本文简单的介绍了微信小程序的入门用法,今后会继续关注和实践. 2016年推出微信小程序,时至今日,历经 ...
- 布隆(Bloom)过滤器 JAVA实现
前言 Bloom过滤器,通过将字符串映射为信息指纹从而节省了空间.Bloom过滤器的原理为,将一个字符串通过一定算法映射为八个Hash值,将八个Hash值对应位置的Bitset位进行填充.在进行校验的 ...
- Java排序算法分析与实现:快排、冒泡排序、选择排序、插入排序、归并排序(二)
一.概述: 上篇博客介绍了常见简单算法:冒泡排序.选择排序和插入排序.本文介绍高级排序算法:快速排序和归并排序.在开始介绍算法之前,首先介绍高级算法所需要的基础知识:划分.递归,并顺带介绍二分查找算法 ...
- 最近公司用到了lombok,感觉很不错的样子,所以上网搜了一些资料,总结了一下用法。
lombok作用:它提供了简单的注解形式来帮助我们简化消除一些必须有但显得很臃肿的Java代码,特别是相对于 POJO.缺点是使用lombok虽然能够省去手动创建setter和getter方法的麻烦, ...