笔记-scrapy-setting

1.     简介

Scrapy设置允许您自定义所有Scrapy组件的行为,包括核心,扩展,管道和蜘蛛本身.

可以使用不同的机制来填充设置,每种机制都有不同的优先级。以下按优先级降序排列:

命令行选项(最优先)

每个蜘蛛的设置

项目设置模块settings.py

每个命令的默认设置

默认的全局设置(优先级较低)

2.     使用

2.1.    在spider中查看和修改设置

可以手动修改设置文件,但有内置属性可以访问设置:self.settings:

class MySpider(scrapy.Spider):

name = 'myspider'

start_urls = ['http://example.com']

custom_settings = { 'SOME_SETTING': 'some value',}

def parse(self, response):

print("Existing settings: %s" % self.settings.attributes.keys())

2.2.    一些参数

BOT_NAME:项目名称

CONCURRENT_ITEMS 项目管道中并行处理的最大并行数 默认: 100

CONCURRENT_REQUESTS 下载器并发数,默认16

CONCURRENT_REQUESTS_PER_DOMAIN 将对任何单个域执行的并发(即同时)请求的最大数量默认: 8

DEFAULT_REQUEST_HEADERS  默认请求头部

DEPTH_LIMIT 最大抓取深度,默认0,代表不使用该参数

DEPTH_PRIORITY 根据深度调整优先级:

0默认,不会调整;

正值,降低优先级,后处理

负值,提高优先级,先处理

DNSCACHE_ENABLED 启用 DNS内存缓存,默认True启用

DOWNLOADER 下载器Default: 'scrapy.core.downloader.Downloader'

DOWNLOADER_MIDDLEWARES 是否使用下载中间件,默认不使用

DOWNLOAD_DELAY 下载器在下载连续页面(同一网站)时的间隔,默认0(不太在什么地方识别是否为同一网站连续页面)

DOWNLOAD_TIMEOUT 下载超时等待时间

DOWNLOAD_MAXSIZE 下载器下载最大响应大小(字节),反反爬用,某此网站。。。

此功能需要twisted>=11.1

DOWNLOAD_WARNSIZE 下载器发出警告的响应大小

ITEM_PIPELINES 管道对象,顺序任意

日志部分:

LOG_ENABLED 是否启用日志

LOG_ENCODING

LOG_FILE

LOG_FORMAT

LOG_DATEFORMAT

LOG_LEVEL 默认DEBUG

LOG_STDOUT 默认False

内存部分:

MEMUSAGE_LIMIT_MB 默认0,限制使用内存大小(得将MEMUSAGE_ENABLED设为True)

MEMUSAGE_NOTIFY_MAIL 达到内存使用限制后邮件通知

例MEMUSAGE_NOTIFY_MAIL  =  [ 'user@example.com' ]

MEMUSAGE_WARNING_MB  配合上一参数使用

笔记-scrapy-setting的更多相关文章

  1. 笔记-scrapy与twisted

    笔记-scrapy与twisted Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码. 在任何情况下,都不要写阻塞的代码.阻塞的代码包括: ...

  2. 常用的scrapy setting

    原文请参考    Scrapy 爬虫入门教程十三 Settings(设置), 讲的很详细 官网参考  Settings 设置 Scrapy 设置允许您自定义所有 Scrapy 组件的行为,包括核心,扩 ...

  3. scrapy setting 备注

    scrapy 脚本里面设置输出文件: process = CrawlerProcess(settings) process.settings.set('FEED_URI', 'wangyi.csv', ...

  4. 《Maven 实战》笔记之setting.xml介绍

    maven是什么?有什么用? Maven是一个跨平台的项目管理工具,主要服务于Java平台的项目构建,依赖管理和项目信息管理.项目构建包括创建项目框架.清理.编译.测试.到生成报告,再到打包和部署,项 ...

  5. Scrapy 初体验

    开发笔记 Scrapy 初体验 scrapy startproject project_name 创建工程 scrapy genspider -t basic spider_name website. ...

  6. Scrapy命令行详解

    官方文档:https://doc.scrapy.org/en/latest/ Global commands: startproject genspider settings runspider sh ...

  7. Python Scrapy环境配置教程+使用Scrapy爬取李毅吧内容

    Python爬虫框架Scrapy Scrapy框架 1.Scrapy框架安装 直接通过这里安装scrapy会提示报错: error: Microsoft Visual C++ 14.0 is requ ...

  8. scrapy结构及各部件介绍

    1.总览,数据流图: 2.Engine:引擎负责控制系统所有组件之间的数据流,并在发生某些操作时触发事件. 3.Scheduler:调度程序接收来自引擎的请求,并将它们排入队列,并在之后,当Engin ...

  9. scrapy的简单使用以及相关设置属性的介绍

    0. 楔子(一个最简单的案例) 1.scrapy.Spider scrapy.spiders.Spider name allowed_domains start_urls custom_setting ...

  10. scrapyd schedule.json setting 传入多个值

    使用案例: import requests adder='http://127.0.0.1:6800' data = { 'project':'v1', 'version':'12379', 'set ...

随机推荐

  1. java分页三个类 PageBean ResponseUtil StringUtil

    package ssmy.page; /** * 分页类 * @author Jesse * */public class PageBean { private int page;//第几页 priv ...

  2. ASP.NET写入和读取xml文件

    xml是一种可扩展标记语言,在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等.它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进 ...

  3. 关于Mysql中文乱码问题该如何解决(乱码问题完美解决方案)(转)

    这篇文章给大家介绍关于Mysql中文乱码问题该如何解决(乱码问题完美解决方案)的相关资料,还给大家收集些关于MySQL会出现中文乱码原因常见的几点,小伙伴快来看看吧   最近两天做项目总是被乱码问题困 ...

  4. 01、Scala介绍与安装

    01.Scala介绍与安装 1.1 Scala介绍 Scala是对java语言脚本化,特点是就是使不具备脚本化的java语言能够采用脚本化方式来使用,使其具有脚本语言简单.所见即所得的特点,并且编程效 ...

  5. 在windows bat脚本(batch)中延时

    编写bat脚本时,有事我们希望在指令和指令之间,加入延时.例如当一条指令执行后,windows需要一定时间来响应的情况. 以下是一种实现方法,通过ping 指令来实现,5表示ping5次,就是延时5秒 ...

  6. simotion byte/word ASCII码转换为字符、字符串

    建立string类型,和byte类型(ASCII)的数据 将byte类型(ASCII)赋值给string中的一个字符 参考程序 VAR_GLOBAL myword :WORD; mystring :S ...

  7. Hybris开发环境的license计算实现

    每隔30天,必须重新执行一次initialize命令把本地所有数据全部清掉然后重新build,需要花费一些时间. 显示在console里的license信息通过license.jsp展示: 剩余的li ...

  8. *187. Repeated DNA Sequences (hashmap, one for loop)(difference between subsequence & substring)

    All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACG ...

  9. 【UOJ139】【UER #4】被删除的黑白树(贪心)

    点此看题面 大致题意: 请你给一棵树黑白染色,使每一个叶结点到根节点的路径上黑节点个数相同. 贪心 显然,按照贪心的思想,我们要让叶结点到根节点的路径上黑节点的个数尽量大. 我们可以用\(Min_i\ ...

  10. CORS跨域请求的限制和解决

    我们模拟一个跨域的请求,一个是8888,一个是8887 //server.js const http = require('http'); const fs = require('fs'); http ...