Scrapy中scrapy.Request和response.follow的区别

在写scrapy的spider类的parse方法的时候，有些链接需要提取出来继续爬取，这里scrapy提供了一些方法可以方便的实现这个功能，总结如下：

假设我们的目标a标签是target_a

方法1：

next_page = target_a.css('::attr(href)').extract_first()

if next_page is not None:

    next_page = response.urljoin(next_page)

    yield scrapy.Request(next_page, callback=self.parse)

方法2

next_page = target_a.css('::attr(href)').extract_first()

if next_page is not None:

    yield response.follow(next_page, callback=self.parse)

方法2变种1

next_page = target_a.css('::attr(href)')

if next_page is not None:

    yield response.follow(next_page[0], callback=self.parse)

方法2变种2

if target_a is not None:

    yield response.follow(target_a, callback=self.parse)

解释

方法1：直接获取到下一页的绝对url，yield一个新Request对象
方法2：不用获取到绝对的url，使用follow方法会自动帮我们实现
方法2变种1：不用获取提取url字符串，只需要传入href这个selector
方法2变种2：不用获取href这个selector，传递一个a的selector，follow方法自动会提取href

注意传入的对象只能是str或selector，不能是SelectorList

Scrapy中scrapy.Request和response.follow的区别的更多相关文章

scrapy中的Request和Response对象
前言: 如果框架中的组件比做成是人的各个器官的话,那个Request和Response就是血液,Item就是代谢产物 Request对象: 是用来描述一个HTTP请求,其构造参数有 url 请求的UR ...
Scrapy中的Request和Response
Request Request 部分源码: # 部分代码 class Request(object_ref): def __init__(self, url, callback=None, metho ...
scrapy中的request
scrapy中的request 初始化参数 class scrapy.http.Request( url [ , callback, method='GET', headers, body, cook ...
LoadRunner中取Request、Response
LoadRunner中取Request.Response LoadRunner两个“内置变量”: 1.REQUEST,用于提取完整的请求头信息. 2.RESPONSE,用于提取完整的响应头信息. 响应 ...
struts2中获取request、response，与android客户端进行交互（文件传递给客户端）
用struts2作为服务器框架,与android客户端进行交互需要得到request.response对象. struts2中获取request.response有两种方法. 第一种:利用Servle ...
Django中的Request和Response
接触Django这么久了,从来没有好好学习关于Django中的Request和Response对象.借着文件上传下载的相关工作,现在总结一下也不错. 当一个页面请求过来,Django会自动创建一个Re ...
SpringMvc4中获取request、response对象的方法
springMVC4中获取request和response对象有以下两种简单易用的方法: 1.在control层获取在control层中获取HttpServletRequest和HttpServle ...
spring MVC中获取request和response:
spring MVC中获取request和response: HttpServletRequest request = ((ServletRequestAttributes) RequestConte ...
DRF (Django REST framework) 中的Request 与 Response
DRF中的Request 与 Response 1. Request - REST framework 传入视图的request对象不再是Django默认的HttpRequest对象,而是REST f ...

随机推荐

Load和CPU利用率是如何算出来的
相信很多人都对Linux中top命令里“load average”这一栏困惑过,到底什么是Load,Load代表了什么含义,Load高会有什么后果?“%CPU”这一栏为什么会超过100%,它是如何计算 ...
java实现sql批量插入参数
背景: 需要更新一些不规范的时间格式,如将某个时间格式化为yy-MM-dd,实际上为 yy-MM-dd hh:mm:ss,并且需要提供回滚脚本. 例如:规范化时间的脚本如下: ,) WHERE tes ...
PHP邮件发送库：Swiftmailer
Swiftmailer需要PHP 7.0或更高版本,(proc_*函数可用.) 安装 composer require "swiftmailer/swiftmailer:^6.0" ...
radio判断是否为空
isMarital = $('[name="isMarital"]:checked').val(); isMarital == null //当radio选择为空的时候 isMar ...
SpringBoot(九) ElasticSearch 全文检索
ElasticSearch ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用 ...
thrift-go（golang）Server端笔记
1.从thrift源码中拷贝go语言包(thrift\lib\go\thrift),放到go/src/下 2.新建go项目,实现server端服务接口 package main impor ...
Sphinx在windows下安装使用[支持中文全文检索]
原文地址:http://www.fuchaoqun.com/2008/11/sphinx-on-windows-xp/ 前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/ ...
Run-time type information--RTTI
In computer programming, run-time type information or run-time type identification (RTTI)[1] refers ...
苹果操作系统名称演变史新名称macOS
历史回顾发布年代名称序号 1994-1999 Classic Mac OS 1-9 2001-2011 Mac OS X 10.0-Lion 2012-2015 OS X Mountain Li ...
python字符串、列表、元组
字符串的常用方法: name.count('h')统计h在name中出现的次数 name.find('h')查找h的索引 '?'.join(name)使用问好拼接 name.encode('gb231 ...

Scrapy中scrapy.Request和response.follow的区别

解释

Scrapy中scrapy.Request和response.follow的区别的更多相关文章

随机推荐

热门专题