scrapy爬虫中间件-urlLength

浏览器里面能输入的最大url是有限制的

safari 最多一万多

ie最少 2083

urllength中间件源码

谷歌和火狐正常八千多

"""

Url Length Spider Middleware

See documentation in docs/topics/spider-middleware.rst

"""

import logging

from scrapy.http import Request

from scrapy.exceptions import NotConfigured

logger = logging.getLogger(__name__)

class UrlLengthMiddleware(object):

    def __init__(self, maxlength):

        self.maxlength = maxlength

    @classmethod

    def from_settings(cls, settings):

        maxlength = settings.getint('URLLENGTH_LIMIT')

        if not maxlength:

            raise NotConfigured

        return cls(maxlength)

    def process_spider_output(self, response, result, spider):

        def _filter(request):

            if isinstance(request, Request) and len(request.url) > self.maxlength:

                logger.debug("Ignoring link (url length > %(maxlength)d): %(url)s ",

                             {'maxlength': self.maxlength, 'url': request.url},

                             extra={'spider': spider})

                return False

            else:

                return True

        return (r for r in result or () if _filter(r))

scrapy设置了默认的长度

如果要自己设置可以在setting里面增加配置

URLLENGTH_LIMIT = 60

如果url的长度超过了这个设置

会在运行打印日志忽略这个url请求

logger.debug("Ignoring link (url length > %(maxlength)d): %(url)s ",

                             {'maxlength': self.maxlength, 'url': request.url},

                             extra={'spider': spider})

scrapy爬虫中间件-urlLength的更多相关文章

scrapy 爬虫中间件-offsite和refer中间件
环境使用anaconda 创建的pyithon3.6环境 mac下 source activate python36 mac@macdeMacBook-Pro:~$ source activate p ...
scrapy 爬虫中间件 httperror中间件
源码 class HttpErrorMiddleware(object): @classmethod def from_crawler(cls, crawler): return cls(crawle ...
scrapy 爬虫中间件 deepth深度
源码 class DepthMiddleware(object): def __init__(self, maxdepth, stats, verbose_stats=False, prio=1): ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
scrapy 基础组件专题（三）：爬虫中间件
一.爬虫中间件简介图 1-1 图 1-2 开始这一张之前需要先梳理一下这张图, 需要明白下载器中间件和爬虫中间件所在的位置下载器中间件是在引擎(ENGINE)将请求推送给下载器(DOWNLOADE ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
scrapy爬虫框架介绍
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...

随机推荐

WebDataBinder 学习顺序
01. 关于Spring属性处理器PropertyResolver以及应用运行环境Environment的深度分析,强大的StringValueResolver使用和解析[享学Spring] http ...
JS 从整数里随机选一个
比如:现有数字随机一个 num = 3)) // 现有数随机一个 randomNum 的值只会是 0 1 2 3 里的随机一个如果想要从数组随机一个下标index 就不要+1 如: parseInt ...
Cassandra3在Centos7下启动失败解决办法
Centos7 安装Cassandra启动过程提示失败,查看结果如下所示: [root@xx ~]# systemctl status cassandra ● cassandra.service - ...
MacOSX 虚拟机与宿主机的网络配置
环境:MacOSX.VMware Fusion11.5.CentOS6 比较重要的两个网卡安装虚拟机后,宿主机会多出几个网卡,其中vmnet1对应的Bridge(桥接方式),vmnet8对应NAT方 ...
matlab学习笔记12单元数组和元胞数组 cell,celldisp,iscell,isa,deal,cellfun,num2cell,size
一起来学matlab-matlab学习笔记12 12_1 单元数组和元胞数组 cell array --cell,celldisp,iscell,isa,deal,cellfun,num2cell,s ...
123456123456----updateV#%#6%#%---pinLv###1%%%----com.zzj.CarCleanGame567---前show后广--儿童洗车-222222
com.zzj.CarCleanGame567---前拼show后广--儿童洗车-
LeetCode_482. License Key Formatting
482. License Key Formatting Easy You are given a license key represented as a string S which consist ...
python非官方扩展库
https://www.lfd.uci.edu/~gohlke/pythonlibs/ 安装方法: 1.下载自己需要的库文件例如:Twisted-19.2.1-cp37-cp37m-win32.wh ...
阿里云composer 镜像
2019年12月2日13:54:32 https://developer.aliyun.com/composer 阿里云的镜像更新时间比较及时本镜像与 Packagist 官方实时同步,推荐使用最新 ...
appium学习笔记（环境安装配置，设备启动）
Android SDK下载及配置下载地址下载后解压缩,打开SDK Manager.exe,下载适当版本的Android包配置环境变量:目录下的tools路径(含uiautomatorview ...

scrapy爬虫中间件-urlLength

scrapy爬虫中间件-urlLength的更多相关文章

随机推荐

热门专题