Scrapy深度和优先级

一、深度　　　　

配置文件 settings.py

DEPTH_LIMIT = 5

二、优先级

配置文件

DEPTH_PRIORITY=1

优先级为正数时，随着深度越大，优先级越低

源码中，优先级

request.priority -= depth * self.prio

三、源码分析

1、深度

class QuoteSpider(scrapy.Spider):

    name = 'quote'

    allowed_domains = ['quotes.toscrape.com']

    start_urls = ['http://quotes.toscrape.com/']

    def start_requests(self):

        for url in self.start_urls:

            yield Request(url=url, callback=self.parse)

    def parse(self, response):

        # response.request.meta = None

        # from scrapy.http import Response

        # response.request.meta ->response.meta

        from scrapy.spidermiddlewares.depth import DepthMiddleware

        print(response.request.url, response.meta.get('depth'))

        next_url = response.xpath('//div[@class="col-md-8"]/nav/ul[@class="pager"]/li[@class="next"]/a/@href').extract_first()

        # print(next_url)

        # 拼接url

        _next = response.urljoin(next_url)

        # print(_next)

        # callback 回调函数

        yield scrapy.Request(url=_next, callback=self.parse)

前提：scrapy yield request对象 -> 中间件 ->调度器...

yield Request对象没有设置meta的值，meta默认为None

parse方法中的respone.request相当于request对象->response.request.meta=None

from scrapy.http import Response ->response.meta 等价于 response.request.meta --->response.meta=None

DepthMiddleware中间件->如果'depth'不在response.meta,那么response.meta['depth'] = 0

# result是存放request对象的列表，通过_filter进行过滤

# 返回 True，存放到调度器

# 返回 False, 丢弃

return (r for r in result or () if _filter(r))

超出最大深度，返回False

# 在配置文件，设置最大深度

maxdepth = settings.getint('DEPTH_LIMIT')

2、优先级

待续...

Scrapy深度和优先级的更多相关文章

python - scrapy 爬虫框架 ( 起始url的实现，深度和优先级，下载中间件 )
1. start_urls -- 起始URL 的内部实现(将迭代器转换为生成器) class QSpider(scrapy.Spider): name = 'q' allowed_domains ...
Netflix工程总监眼中的分类算法：深度学习优先级最低
Netflix工程总监眼中的分类算法:深度学习优先级最低摘要:不同分类算法的优势是什么?Netflix公司工程总监Xavier Amatriain根据奥卡姆剃刀原理依次推荐了逻辑回归.SVM.决策树 ...
scrapy初步解析源码即深度使用
scrapy深度爬虫 ——编辑:大牧莫邪本章内容深度爬虫概述 scrapy Spider实现的深度爬虫 scrapy CrawlSpdier实现的深度爬虫案例操作课程内容 1. 深度爬虫概述 ...
解读Scrapy框架
Scrapy框架基础:Twsited Scrapy内部基于事件循环的机制实现爬虫的并发.原来: url_list = ['http://www.baidu.com','http://www.baidu ...
scrapy框架小知识
持久化去重规则深度 cookie start_url 深度和优先级下载中间件持久化步骤 pipeline/items a. 先写pipeline类 class XXXPipeline(obj ...
Python Scrapy爬虫速成指南
序本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容. 本文受众:没写过爬虫的萌新. 入门 0.准备工作需要准备的东西: Python.scrapy.一个IDE或者随便 ...
python爬虫使用scrapy框架
scrapy框架提升篇关注公众号"轻松学编程"了解更多 1.创建启动爬虫脚本在项目目录下创建start.py文件: 添加代码: #以后只要运行start.py就可以启动爬虫 i ...
2.python知识点总结
1.什么是对象?什么是类? 对象是对类的具体表达,类是对象的抽象表达. 类只是为所有的对象定义了抽象的属性与行为. —————————————————————————————————————————— ...
Python-S9-Day127-Scrapy爬虫框架2
01 今日内容概要 02 内容回顾:爬虫 03 内容回顾:并发和网络 04 Scrapy框架:起始请求定制 05 Scrapy框架:深度和优先级 06 Scrapy框架:内置代理 07 Scrapy框 ...

随机推荐

51nod 范德蒙矩阵
思路: 根据矩阵乘法的定义,G中的第i行第j列的元素 ai,j ,对答案的贡献为 ai,j∗ T中第j行的所有元素之和. 因此我们可以将T中根据每行的和进行排序.第i行的和可以通过公式 (ai^n−1 ...
Codevs 均分纸牌(贪心)
题目描述 Description 有 N 堆纸牌,编号分别为 1,2,…, N.每堆上有若干张,但纸牌总数必为 N 的倍数.可以在任一堆上取若于张纸牌,然后移动. 移牌规则为:在编号为 1 堆上取的纸 ...
poj/OpenJ_Bailian - 2528 离散化+线段树
传送门:http://bailian.openjudge.cn/practice/2528?lang=en_US //http://poj.org/problem?id=2528 题意: 给你n长海报 ...
使用exp/imp 在oracle数据库间导数据
最近工作需要将oracle数据库的表数据导出到另一个oracle数据库表,找到了oracle 自带的命令行,并记录下导数据过程. 导数据过程分以下几步: 假设源数据库为A,目标数据库为B 1.在B上通 ...
Kali之msf简单的漏洞利用
1.信息收集靶机的IP地址为:192.168.173.136 利用nmap工具扫描其开放端口.系统等整理一下目标系统的相关信息系统版本:Windows server 2003 开放的端口及服务: ...
25.python之面向对象
一三大编程范式正本清源一:有人说,函数式编程就是用函数编程--->傻逼编程范式即编程的方法论,标识一种编程风格大家学习了基本的python语法后,大家就可以写python代码了,然后每个 ...
word HTML文件与Markdwon互相转换的几种方式
Tip:word文件与Markdwon转换往往是可逆的.无论使用哪种方式,要想完美转换,必须要预先处理掉markdown与word不兼容的格式,如word文件对象,带边框的代码块等等方法一:借助pa ...
Iterator接口介绍(迭代器)
第一步第二步第二步用while 第二步用for循环(了解) 备注:
cookies 与session
cookies :存放在浏览器(客户端)的用户信息 - 优点: 可以将数据存在客户端一方: - 缺点: 不安全,可以存放多份,导致服务端占用空间过大 session :存放在服务端的用户信息 - 优点 ...
初识python——知其名而去其意
---背景 b2b,房地产,人工智能是今年最火的词汇,那么配套的软件技术究竟是怎样的呢,通过百度,园子里的信息分析,自我感觉需要用python来进行数据采集. ---环境在百度,qq群的大神指导下, ...

Scrapy深度和优先级

Scrapy深度和优先级的更多相关文章

随机推荐

热门专题