scrapy框架3——请求传参

当使用scrapy爬取的数据不在同一张页面中（一次请求与数据后解析无法获得想要的全部数据），需要请求传参，在第一次解析时实例化item,将item传递，再次将请求到的数据解析后，封装在item中。

关键点

yield scrapy.Request(callback=self.parse_detail,url = detail_url,meta={'item':item})

例如在豆瓣中，电影封面页获取电影名称，在详情页获取电影简介：

先从起始网页解析出电影名称和详情页的url

将得到的电影名称封装在item中

将解析到的url作为下一次请求的参数，同时将item作为参数传递，作为下一次解析结果的容器

最后将含有一组完整数据的item提交

import scrapy

import re

from douban.items import DoubanItem

class DbspiderSpider(scrapy.Spider):

    name = 'dbspider'

    start_urls = ['https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0/']

    def parse(self, response):

       title = re.findall('title":"(.*?)"',response.text,re.S,)

       url_list = re.findall('url":"(.*?)"',response.text,re.S)

       for name,url in zip(title,url_list):

            detail_url = url.replace('\\','')

            item = DoubanItem()

            item['name'] = name

            yield scrapy.Request(callback=self.parse_detail,url = detail_url,meta={'item':item})

        #如果解析第2、3、4...页的数据，再次递归。。。

    def parse_detail(self,response):

        item = response.meta['item']

        #name = response.xpath('//*[@id="content"]/h1/span[1]/text()').exrtact_fist()

        instr = response.xpath('//*[@id="link-report"]/span[1]/text()').extract_first()

        item['instr'] = instr

        yield item

scrapy框架3——请求传参的更多相关文章

scrapy框架post请求发送，五大核心组件，日志等级，请求传参
一.post请求发送 - 问题:爬虫文件的代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答: ...
scrapy框架的日志等级和请求传参, 优化效率
目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级请求传参如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级在使 ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
13.scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
scrapy框架的日志等级和请求传参
日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
爬虫开发10.scrapy框架之日志等级和请求传参
今日概要日志等级请求传参今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...
Scrapy框架之日志等级和请求传参
一.Scrapy的日志等级在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. 1.日志等级(信息种类) ERROR:错误 WARN ...
13，scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy ...

随机推荐

ICEM-带把圆环
原视频下载地址:https://pan.baidu.com/s/1pKSXyR5 密码: dynm
python操作toml文件
# -*- coding: utf-8 -*- # @Time : 2019-11-18 09:31 # @Author : cxa # @File : toml_demo.py # @Softwar ...
Leet Code 771.宝石与石头
Leet Code编程题希望能从现在开始,有空就做一些题,自己的编程能力太差了. 771 宝石与石头简单题应该用集合来做给定字符串J 代表石头中宝石的类型,和字符串 S代表你拥有的石头. S ...
软件工程实践2019第五次作业——结对编程的编程实现 version1.1
1.链接我的博客链接https://github.com/S031402112 结对同学的博客https://www.cnblogs.com/jiabingge/ 我们队创建的仓库的Github项目 ...
centos7使用MariaDB（转）
转载文章:https://blog.csdn.net/zwkkkk1/article/details/78444581?locationNum=10&fps=1 最近使用centos7,php ...
scrapy 爬虫教程
http://python.jobbole.com/87284/ 这篇教程不错,后面的参考链接很好另外,注意xpath的坑,用chrome的网页调试工具会对xpath会自动优化,自己加上tbody, ...
YII2 composer update 报错解决一例-requires bower-asset/jquery 2.2
➜ yii-advanced composer update Loading composer repositories with package information Updating depe ...
openresty开发系列13--lua基础语法2常用数据类型介绍
openresty开发系列13--lua基础语法2常用数据类型介绍一)boolean(布尔)布尔类型,可选值 true/false: Lua 中 nil 和 false 为"假" ...
Python3基础 global 在函数内部对全局变量进行修改
Python : 3.7.3 OS : Ubuntu 18.04.2 LTS IDE : pycharm-community-2019.1.3 ...
我是如何同时拿到阿里和腾讯offer的【转载】
前言三月真是一个忙碌的季节,刚刚开学就需要准备各种面试和笔试(鄙视).幸运的是,在长达一个月的面试内推季之后,终于同时拿到了阿里和腾讯的offer,还是挺开心的.突而想起久未更新的博客,就冒昧学一学 ...

scrapy框架3——请求传参

关键点

scrapy框架3——请求传参的更多相关文章

随机推荐

热门专题