Scrapy框架(五)--请求传参

在某些情况下，我们爬取的数据不在同一个页面中，例如，我们爬取一个电影网站，电影的名称，评分在一级页面，而要爬取的其他电影详情在其二级子页面中。

这时我们就需要用到请求传参。

请求传参的使用场景

当我们使用爬虫爬取的数据没有存在于同一张页面的时候，则必须使用请求传参。（深度爬取）

示例：爬取boss的岗位名称，岗位描述

# -*- coding: utf-8 -*-

import scrapy

from bossPro.items import BossproItem

class BossproSpider(scrapy.Spider):

    name = 'bosspro'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.zhipin.com/c100010000-p100109/?ka=search_100109']

    url = 'https://www.zhipin.com/c100010000-p100109/?page=%s&ka=page-%s'

    page_num = 2

    def detail_parse(self,response):

        job_desc = response.xpath('//*[@id="main"]/div[3]/div/div[2]/div[2]/div[1]/div//text()').extract()

        job_desc = ''.join(job_desc)

        item = response.meta.get('item')

        item['job_desc'] = job_desc

        print(job_desc)

        yield item

    def parse(self, response):

        print(response.text)

        li_list = response.xpath('//*[@id="main"]/div/div[2]/ul/li')

        print(li_list)

        for li in li_list:

            item = BossproItem()

            job_name = li.xpath('.//div[@class="job-title"]/span[1]/a/text()').extract_first()

            detail_url = 'https://www.zhipin.com'+li.xpath('.//div[@class="job-title"]/span[1]/a/@href').extract_first()

            print(detail_url)

            print(job_name)

            item['job_name'] = job_name

            # meta可以将参数 传递给回调的函数

            yield scrapy.Request(url=detail_url,callback=self.detail_parse,meta={'item':item})

            # 请求传参就是将不同页面请求到的数据封装到item中 存储在管道 可通过meta参数传递item

        if self.page_num <=5:

            new_url = format(self.url % (self.page_num,self.page_num))

            self.page_num+=1

            yield scrapy.Request(url=new_url,callback=self.parse)

Scrapy框架(五)--请求传参的更多相关文章

scrapy框架3——请求传参
当使用scrapy爬取的数据不在同一张页面中(一次请求与数据后解析无法获得想要的全部数据),需要请求传参,在第一次解析时实例化item,将item传递,再次将请求到的数据解析后,封装在item中. 关 ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
scrapy框架post请求发送，五大核心组件，日志等级，请求传参
一.post请求发送 - 问题:爬虫文件的代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答: ...
scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级请求传参如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级在使 ...
13.scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
scrapy框架的日志等级和请求传参
日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
爬虫开发10.scrapy框架之日志等级和请求传参
今日概要日志等级请求传参今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...
Scrapy框架之日志等级和请求传参
一.Scrapy的日志等级在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. 1.日志等级(信息种类) ERROR:错误 WARN ...
13，scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy ...

随机推荐

EasyNLP发布融合语言学和事实知识的中文预训练模型CKBERT
简介: 本⽂简要介绍CKBERT的技术解读,以及如何在EasyNLP框架.HuggingFace Models和阿里云机器学习平台PAI上使⽤CKBERT模型. 导读预训练语言模型在NLP的各个应用 ...
CDN应用进阶 | 正确使用CDN 让你更好规避安全风险
为了帮助用户更好地了解和使用CDN产品,CDN应用实践进阶系统课程开课了.12月17日,阿里云CDN产品专家彭飞在线分享了<正确使用CDN,让你更好规避安全风险>议题,内容主要包括以下几个 ...
[GPT] swoole的协程和golang的协程有什么区别，哪个更好
Swoole 的协程和 Golang(Go 语言)的协程(Goroutine)在概念上都是为了实现轻量级的并发编程,但它们在具体实现.使用方式和性能特点上有所不同: 实现原理: Golang 协程(G ...
kubeadm安装多master节点的k8s集群(1)
一.环境准备 k8s集群角色 IP 主机名安装的相关组件控制节点 192.168.1.10 master apiserver.controller-manager.scheduler.kubele ...
九、DataArts Studio
功能总览: 基本概念: 主题设计:通过分层架构表达对数据的分类和定义,帮助理清数据资产,明确业务领域和业务对象的关联关系. 主题域分组:基于业务场景对主题域分组. 主题域:互不重叠数据的高层面的数据分 ...
IPv6 — 综合组网技术
目录文章目录目录前文列表 IPv4v6 综合组网技术(转换机制) 双栈策略隧道策略前文列表 <IPv6 - 网际协议第 6 版> <IPv6 - 地址格式与寻址模式> ...
【PB案例学习笔记】-01创建应用、窗口与控件
写在前面这是PB案例学习笔记系列文章的第一篇,也是最基础的一篇.后续文章中[创建程序基本框架]部分操作都跟这篇文章一样, 将不再重复.该系列文章是针对具有一定PB基础的读者,通过一个个由浅入深的编程 ...
python基础环境
刚开始接触并学习一门开发语言,带着不求甚解的想法,其实也挺有好处的:我并不是所有的东西都知道,但是代码跑起来了. 但是时间久了,还是带着这种想法,可能就会遇到一些棘手的问题.比如电脑上不知不觉已经安装 ...
Clear Code for Minimal API
我在写MinimalAPI的时候,发现不能最清晰的看到每个API,原因就是:WebAPI中不断增长逻辑处理过程于是我在想如何简化API至一行,在一点一点想办法中,发现了简化DotNET Minima ...
环境变量管理工具Modules的安装
一.软件依赖tcl软件 (1)tcl下载地址:http://www.tcl-lang.org/software/tcltk/(2)编译安装 cd unix/ ./configure --prefix= ...

Scrapy框架(五)--请求传参

Scrapy框架(五)--请求传参的更多相关文章

随机推荐

热门专题