第六篇 xpath的用法

使用pycharm debug调试效率会比较慢，因为每次调试都需要向url发送请求，等返回信息,scrapy提供一种方便调试的功能，如下：

>>>(third_project) bigni@bigni:pachong$ scrapy shell http://blog.jobbole.com/112239/

>>> title = response.xpath('//*[@id="post-112239"]/div[1]/h1')

>>> title

[<Selector xpath='//*[@id="post-112239"]/div[1]/h1' data='<h1>谷歌用两年时间研究了 180 个团队，发现高效团队有这五个特征</h1>'>]

>>> title.extract()

['<h1>谷歌用两年时间研究了 180 个团队，发现高效团队有这五个特征</h1>']

>>> title = response.xpath('//*[@id="post-112239"]/div[1]/h1/text()')

>>> title

[<Selector xpath='//*[@id="post-112239"]/div[1]/h1/text()' data='谷歌用两年时间研究了 180 个团队，发现高效团队有这五个特征'>]

extract()方法可以取到select list里的date，text()方法可以取到内容。

In []: title2 = response.xpath("//*[@id='post-112239']/div[1]/h1").extract()

In []: title2

Out[]: ['<h1>谷歌用两年时间研究了 180 个团队，发现高效团队有这五个特征</h1>']

In []: title2 = response.xpath("//*[@id='post-112239']/div[1]/h1")

In []: title2

Out[]: [<Selector xpath="//*[@id='post-112239']/div[1]/h1" data='<h1>谷歌用两年时间研究了 180 个团队，发现高效团队有这五个特征</h1>'>]

In []: title2 = response.xpath("//*[@id='post-112239']/div[1]/h1/text()").extr

    ...: act()

In []: title2

Out[]: ['谷歌用两年时间研究了 180 个团队，发现高效团队有这五个特征']

In []:

PS：在chrome里，按F12看到的代码是加载完所有插件后的，比如JS，如果通过通过根路径来定位要找的内容是容易出错的，因为xpath搜索的不会把js等生成的元素计算在内，这个可以通过鼠标右键查看源码来判断哪些是js生成的，然后过滤掉。

对于属性里有多个值的情况，比如class 里有多个值：

可以使用scrapy内置的contains方法：

In []: ret = response.xpath("//div[contains(@class,'post-112239')]")

In []: ret

Out[]: [<Selector xpath="//div[contains(@class,'post-112239')]" data='<div class="post-112239 post type-post s'>]

如果要爬取下面这个内容，可以这么操作：

In []: rest = response.xpath('//*[@id="post-112239"]/div[3]/div[4]/span[2]/tex

    ...: t()').extract()[0]

In []: rest

Out[]: ' 8 收藏'

接着再用正则去掉别的信息,由于在scrapy shell中直接调用re模块会报错，那可以用ipython调试

In []: ret = re.match(r".*(\d+).*",' 8 收藏')

In []: ret.group()

Out[]: ''

第六篇 xpath的用法的更多相关文章

[老老实实学WCF] 第六篇元数据交换
老老实实学WCF 第六篇元数据交换通过前两篇的学习,我们了解了WCF通信的一些基本原理,我们知道,WCF服务端和客户端通过共享元数据(包括服务协定.服务器终结点信息)在两个终结点上建立通道从而进 ...
Python爬虫利器六之PyQuery的用法
前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
（数据科学学习手札61）xpath进阶用法
一.简介 xpath作为对网页.对xml文件进行定位的工具,速度快,语法简洁明了,在网络爬虫解析内容的过程中起到很大的作用,除了xpath的基础用法之外(可参考我之前写的(数据科学学习手札50)基于P ...
解剖SQLSERVER 第十六篇 OrcaMDF RawDatabase --MDF文件的瑞士军刀（译）
解剖SQLSERVER 第十六篇 OrcaMDF RawDatabase --MDF文件的瑞士军刀(译) http://improve.dk/orcamdf-rawdatabase-a-swiss-a ...
解剖SQLSERVER 第六篇对OrcaMDF的系统测试里避免regressions（译）
解剖SQLSERVER 第六篇对OrcaMDF的系统测试里避免regressions (译) http://improve.dk/avoiding-regressions-in-orcamdf-b ...
Python之路【第十六篇】：Django【基础篇】
Python之路[第十六篇]:Django[基础篇] Python的WEB框架有Django.Tornado.Flask 等多种,Django相较与其他WEB框架其优势为:大而全,框架本身集成了O ...
第六篇：微信公众平台开发实战Java版之如何自定义微信公众号菜单
我们来了解一下自定义菜单创建接口: http请求方式:POST(请使用https协议) https://api.weixin.qq.com/cgi-bin/menu/create?access_to ...
RabbitMQ学习总结第六篇：Topic类型的exchange
目录 RabbitMQ学习总结第一篇:理论篇 RabbitMQ学习总结第二篇:快速入门HelloWorld RabbitMQ学习总结第三篇:工作队列Work Queue RabbitMQ学习总结 ...
第六篇 Replication：合并复制-发布
本篇文章是SQL Server Replication系列的第六篇,详细内容请参考原文. 合并复制,类似于事务复制,包括一个发布服务器,一个分发服务器和一个或多个订阅服务器.每一个发布服务器上可以定义 ...

随机推荐

Linux NIO 系列(04-4) select、poll、epoll 对比
目录一.API 对比 1.1 select API 1.2 poll API 1.3 epoll API 二.总结 2.1 支持一个进程打开的 socket 描述符(FD)不受限制(仅受限于操作系统 ...
SpringMVC（IntelliJ IDEA）（详细操作）
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
Python- 接口类-抽象类
接口类继承有两种用途: 一:继承基类的方法,并且做出自己的改变或者扩展(代码重用) 二:声明某个子类兼容于某基类,定义一个接口类Interface,接口类中定义了一些接口名(就是函数名)且并未实现接 ...
34-python基础-python3-列表删除元素-remove()方法-del语句-pop()方法
1-remove()方法根据值删除元素. remove()方法传入一个列表中的值,它将从被调用的列表中删除. 如果该值在列表中出现多次,只有第一次出现的值会被删除. 如果要删除的值可能在列表中出现 ...
挂载时出现mount: RPC: Unable to receive; errno = Connection refused错误的解决方法
当我们在做NFS开发板下挂载时,经常会出现mount: RPC: Unable to receive; errno = Connection refused的错误,连接被拒绝了,到底是什么原因呢? 这 ...
mid
""" Cross Site Request Forgery Middleware. This module provides a middleware that imp ...
微信小程序のmina架构
Dubbo面试常见问题
一.dubbo是什么? dubbo是⼀个分布式服务框架,提供⾼性能和透明化的RPC远程服务调⽤⽅案,以及SOA服务治理方案.说白了其实dubbo就是一个远程调用的分布式框架. 二.dubbo的核心服务 ...
RK3288编译 Android 5.1 固件
1 准备工作编译 Android 对机器的配置要求较高: 64 位 CPU 16GB 物理内存+交换内存 30GB 空闲的磁盘空间用于构建,源码树另外占用大约 25GB Ubuntu 14.04 操 ...
Vim: Overwrite read-only file without quiting vim
当你忘记以sudo命令使用vim编辑一个只读文件时,可以执行以下vim命令强制覆写该文件: :w !sudo tee % > /dev/null 命令太长,可在vimrc文件中做命令映射(映射为 ...

第六篇 xpath的用法

第六篇 xpath的用法的更多相关文章

随机推荐

热门专题