scrapy 爬虫中间件 deepth深度

源码

class DepthMiddleware(object):

    def __init__(self, maxdepth, stats, verbose_stats=False, prio=1):

        self.maxdepth = maxdepth

        self.stats = stats

        self.verbose_stats = verbose_stats

        self.prio = prio

    @classmethod

    def from_crawler(cls, crawler):

        settings = crawler.settings

        maxdepth = settings.getint('DEPTH_LIMIT')

        verbose = settings.getbool('DEPTH_STATS_VERBOSE')

        prio = settings.getint('DEPTH_PRIORITY')

        return cls(maxdepth, crawler.stats, verbose, prio)

    def process_spider_output(self, response, result, spider):

        def _filter(request):

            if isinstance(request, Request):

                depth = response.meta['depth'] + 1

                request.meta['depth'] = depth

                if self.prio:

                    request.priority -= depth * self.prio

                if self.maxdepth and depth > self.maxdepth:

                    logger.debug(

                        "Ignoring link (depth > %(maxdepth)d): %(requrl)s ",

                        {'maxdepth': self.maxdepth, 'requrl': request.url},

                        extra={'spider': spider}

                    )

                    return False

                else:

                    if self.verbose_stats:

                        self.stats.inc_value('request_depth_count/%s' % depth,

                                             spider=spider)

                    self.stats.max_value('request_depth_max', depth,

                                         spider=spider)

            return True

        # base case (depth=0)

        if 'depth' not in response.meta:

            response.meta['depth'] = 0

            if self.verbose_stats:

                self.stats.inc_value('request_depth_count/0', spider=spider)

        return (r for r in result or () if _filter(r))

配置

DEPTH_LIMIT = 2 深度限制 
开启后 有输出 request_depth_0 1 2 3 4 分别收集了多少个

DEPTH_STATS_VERBOSE = True 深度状态收集

DEPTH_PRIORITY = 5  int 涉及到广度优先还是深度优先
深度优先会先爬取2 3 4 深度的
广度优先会先爬取完1的 再爬取2 
正数广度优先 优先级越高 越先请求，因为

request.priority -= depth * self.prio 所以 设置为正数的时候，每次优先级减少，越往后面再请求 就变成先请求前面所有的再请求后面的，广度了

负数 深度优先

scrapy 爬虫中间件 deepth深度的更多相关文章

scrapy 爬虫中间件-offsite和refer中间件
环境使用anaconda 创建的pyithon3.6环境 mac下 source activate python36 mac@macdeMacBook-Pro:~$ source activate p ...
scrapy 爬虫中间件 httperror中间件
源码 class HttpErrorMiddleware(object): @classmethod def from_crawler(cls, crawler): return cls(crawle ...
scrapy爬虫中间件-urlLength
浏览器里面能输入的最大url是有限制的 safari 最多一万多 ie最少 2083 urllength中间件源码谷歌和火狐正常八千多 """ Url Lengt ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
scrapy 基础组件专题（三）：爬虫中间件
一.爬虫中间件简介图 1-1 图 1-2 开始这一张之前需要先梳理一下这张图, 需要明白下载器中间件和爬虫中间件所在的位置下载器中间件是在引擎(ENGINE)将请求推送给下载器(DOWNLOADE ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
scrapy爬虫框架setting模块解析
平时写爬虫的时候并不需要设置setting里所有的参数,今天心血来潮,花了点时间查了一下setting模块创建后自动写入的所有参数的含义,记录一下. 模块相关说明信息 # -*- coding: ut ...
Scrapy 框架中间件，信号，定制命令
中间件下载器中间件写中间件 from scrapy.http import HtmlResponse from scrapy.http import Request class Md1(objec ...
scrapy爬虫框架介绍
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...

随机推荐

vue-cli webpack打包开启Gzip 报错—— Cannot find module 'compression-webpack-plugin
异常描述: 复用以前框架,打包的时候报异常提示: Cannot find module 'compression-webpack-plugin" 然后安装插件: npm install -- ...
PHP商品秒杀问题解决方案实例详解【mysql与redis】
本文实例讲述了PHP商品秒杀问题解决方案.分享给大家供大家参考,具体如下: 引言假设num是存储在数据库中的字段,保存了被秒杀产品的剩余数量. if($num > 0){ //用户抢购成功,记 ...
Ubuntu14 配置开机自启动/关闭
1.ubuntu默认运行级别为2(runlevel),所以在/etc/rc2.b中S开头的链接文件(连接到/etc/init.d)就是自启动项.不想开机自动启动可以把S开头的文件重命名或删除,重命名好 ...
Python的Colorama模块
简介 Python的Colorama模块,可以跨多终端,显示字体不同的颜色和背景,只需要导入colorama模块即可,不用再每次都像linux一样指定颜色. 1. 安装colorama模块 1 pip ...
使用vue搭建应用一入门
1.准备安装nodejs,配置环境变量安装了nodejs,也就安装了npm 安装webpack npm install webpack -g 安装vue脚手架项目初始化工具 vue-cli npm ...
读Secrets of the JavaScript Ninja（一）函数
理解JavaScript为什么应该作为函数式在JavaScript中,函数是程序执行过程中的主要模块单元函数是第一类对象通过字面量创建 function ninjaFunction(){} 赋值 ...
pod的时区问题
1制作image时进行配置修改 2将宿主机的时区配置文件挂载到pod中(此处注意,宿主机之间需已经完成时间同步) volumeMounts: - name: host-time mountpath: ...
Visual Studio Code工具使用及配置
最近迷上了这个工具,启动速度快,好多插件.唯一不满意的地方就是svn版本控制工具.下面发现我装的一些插件及配置: 我安装的一些插件: 上面是我装的插件,等有时间再解释下插件的作用. 接下来说下配置: ...
配置git diff和git merge使用的第三方工具
一般在运行git merge branchName后,git 如果提示了merger冲突,然后运行git mergetool.Git提示冲突后,运行git mergetool --tool-help ...
elasticsearch 常见查询及聚合的JAVA API
ES 常见查询 (1)根据ID 进行单个查询 GetResponse response = client.prepareGet("accounts", "person&q ...

scrapy 爬虫中间件 deepth深度

scrapy 爬虫中间件 deepth深度的更多相关文章

随机推荐

热门专题