scrapy基于请求传参实现深度爬取

请求传参实现深度爬取

请求传参：

实现深度爬取：爬取多个层级对应的页面数据
使用场景：爬取的数据没有在同一张页面中
在手动请求的时候传递item：yield scrapy.Request(url,callback,meta={'item':item})
- 将meta这个字典传递给callback
- 在callback中接收meta：item = response.meta['item']

    def parse(self, response):

        li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')

        for li in li_list:

            title = li.xpath('./div[1]/a/@title').extract_first()

            detail_url = 'https://www.4567tv.tv' + li.xpath('./div[1]/a/@href').extract_first()

            item = MoviespiderItem()

            item['title'] = title

            # meta参数是一个字典，该字典就可以传递给callback指定的回调函数

            yield scrapy.Request(detail_url, callback=self.parse_detail, meta={"item": item})

    def parse_detail(self, response):

        # 接收meta：response.meta

        item = response.meta['item']

        desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first()

        item["desc"] = desc

        yield item

scrapy基于请求传参实现深度爬取的更多相关文章

scrapy请求传参-BOSS反爬
scrapy请求传参-BOSS反爬思路总结首先boss加了反爬是cookies的爬取的内容为职位和职位描述 # -*- coding: utf-8 -*- import scrapy from ...
爬虫scrapy组件请求传参,post请求,中间件
post请求在scrapy组件使用post请求需要调用 def start_requests(self): 进行传参再回到 yield scrapy.FormRequest(url=url,form ...
scrapy (三) : 请求传参
scrapy 请求传参 1.定义数据结构item.py文件 ''' field: item.py ''' # -*- coding: utf-8 -*- # Define here the model ...
python爬虫---scrapy框架爬取图片,scrapy手动发送请求,发送post请求,提升爬取效率,请求传参(meta),五大核心组件,中间件
# settings 配置 UA USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, l ...
scrapy模块之分页处理,post请求,cookies处理,请求传参
一.scrapy分页处理 1.分页处理如上篇博客,初步使用了scrapy框架了,但是只能爬取一页,或者手动的把要爬取的网址手动添加到start_url中,太麻烦接下来介绍该如何去处理分页,手动发起分 ...
13.scrapy框架的日志等级和请求传参
今日概要日志等级请求传参如何提高scrapy的爬取效率今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是s ...
scrapy框架的日志等级和请求传参
日志等级请求传参如何提高scrapy的爬取效率一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息 ...
scrapy框架之日志等级和请求传参-cookie-代理
一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志信息的种类: ERROR : 一般错误 ...
Scrapy的日志等级和请求传参
日志等级日志信息: 使用命令:scrapy crawl 爬虫文件运行程序时,在终端输出的就是日志信息: 日志信息的种类: ERROR:一般错误: WARNING:警告: INFO:一般的信息: ...

随机推荐

BI平台能做什么，有哪些功能呢？
相信接触过数据分析工作的小伙伴们,对BI平台并不陌生.BI(Business Intelligence),也就是商业智能,它是一个完整的解决方案,可以有效地整合企业中的现有数据.BI通常被理解为将企 ...
MySQL常用查询命令（单表查询）
查询语法如下: select... from... where... group by... (having)... order by...; 顺序是from (从指定表中) where (具体条件) ...
kibana操作记录
GET _search { "query": { "match_all": {} } } GET _cat/nodes GET _cat/health GET ...
洛谷P4322.最佳团体
题目大意一个 \(n(1\leq n\leq 2500)\) 个节点的森林,每个点 \(i\) 有权值 \(s_{i},p_{i}(0<s_{i},p_{i}\leq 10^4)\) 以及父亲 ...
mysql索引技术名词1-5
目录索引技术名词 1.回表 2.覆盖索引 3.最左匹配原则 4.索引下推 5.谓词下推索引技术名词 1.回表注意: 1.如果依靠主键查询,叶子结点直接存储数据----主键B+树 2.如果依靠其他 ...
JVM上篇：类加载子系统
JVM类加载目录 JVM类加载 1.内存结构概述 2.类加载子系统概述 3.类的加载过程 2.1加载 2.2Linking 2.2.1验证(Verify) 2.2.2准备(Prepare) 2.2. ...
LGP7884题解
是的,这是一篇使用 min25 筛的题解... 本题解参考command_block大佬的博客,代码是对其在 LOJ 上的提交卡常后写出来的. ML 板子把数据开到 \(10^{13}\) 速度还和供 ...
翻译 | Kubernetes 将改变数据库的管理方式
作者:Álvaro Hernández 当技术决策人考虑在 Kubernetes 上部署数据库时,面临的第一个问题就是:"Kubernetes 有应对有状态服务的能力吗?"多年来的 ...
Java案例——统计字符串中各种字符出现的次数
/*案例:统计各种字符在字符串中出现的次数分析:只考虑三种字符类型的情况下(大写字母,小写字母,数字) 1.使用Scanner 类获取字符串数据 2.遍历字符串得到每一个字符 3.判断每一个字符是那 ...
实践：Linux下安装mysql8.0
镜像下载.域名解析.时间同步请点击阿里云开源镜像站一.下载mysql8.0安装包 1.在local创建mysql文件夹 cd /usr/local mkdir mysql cd mysql 2.使 ...

scrapy基于请求传参实现深度爬取

请求传参实现深度爬取

scrapy基于请求传参实现深度爬取的更多相关文章

随机推荐

热门专题