Scrapy 之settings配置

BOT_NAME
- 默认: 'scrapybot'
- 当您使用 startproject 命令创建项目时其也被自动赋值。

ROBOTSTXT_OBEY = False
- 是否遵守rebotes.txt协议

CONCURRENT_ITEMS
- 默认: 100
- Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。

DOWNLOADER_MIDDLEWARES 下载中间键
- DOWNLOADER_MIDDLEWARES = {

   'middlePro.middlewares.MiddleproDownloaderMiddleware': 543,
}

CONCURRENT_REQUESTS
- 默认: 16
- Scrapy downloader 并发请求(concurrent requests)的最大值。

DEFAULT_REQUEST_HEADERS

默认: 如下

{

     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

     'Accept-Language': 'en',

     }

Scrapy HTTP Request使用的默认header。

DEPTH_LIMIT
- 默认: 0
- 爬取网站最大允许的深度(depth)值。如果为0，则没有限制。
DOWNLOAD_DELAY
- 默认: 0
- 下载器在下载同一个网站下一个页面前需要等待的时间。该选项可以用来限制爬取速度，减轻服务器压力。同时也支持小数:
  DOWNLOAD_DELAY = 0.25 # 250 ms of delay
- 默认情况下，Scrapy在两个请求间不等待一个固定的值，而是使用0.5到1.5之间的一个随机值 DOWNLOAD_DELAY 的结果作为等待间隔。
DOWNLOAD_TIMEOUT
- 默认: 180
- 下载器超时时间(单位: 秒)。
ITEM_PIPELINES
- 默认: {}
- 保存项目中启用的pipeline及其顺序的字典。该字典默认为空，值(value)任意，不过值(value)习惯设置在0-1000范围内，值越小优先级越高。

ITEM_PIPELINES = {

            'mySpider.pipelines.SomethingPipeline': 300,

            'mySpider.pipelines.ItcastJsonPipeline': 800,

            }

LOG_ENABLED
- 默认: True
- 是否启用logging。
LOG_ENCODING
- 默认: 'utf-8'
- logging使用的编码。
LOG_LEVEL
- 默认: 'DEBUG'
- log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
USER_AGENT
- 默认: "Scrapy/VERSION (+http://scrapy.org)"
- 爬取的默认User-Agent，除非被覆盖。

PROXIES：代理设置

示例：

PROXIES = [

      {'ip_port': '111.11.228.75:80', 'password': ''},

      {'ip_port': '120.198.243.22:80', 'password': ''},

      {'ip_port': '111.8.60.9:8123', 'password': ''},

      {'ip_port': '101.71.27.120:80', 'password': ''},

      {'ip_port': '122.96.59.104:80', 'password': ''},

      {'ip_port': '122.224.249.122:8088', 'password':''},

    ]

COOKIES_ENABLED = False
- 禁用Cookies

Scrapy 之settings配置的更多相关文章

Scrapy 框架安装五大核心组件 settings 配置管道存储
scrapy 框架的使用博客: https://www.cnblogs.com/bobo-zhang/p/10561617.html 安装: pip install wheel 下载 Twisted ...
python 全栈开发，Day138(scrapy框架的下载中间件,settings配置)
昨日内容拾遗打开昨天写的DianShang项目,查看items.py class AmazonItem(scrapy.Item): name = scrapy.Field() # 商品名 price ...
scrapy反反爬虫策略和settings配置解析
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
Scrapy入门到放弃03：理解settings配置，监控Scrapy引擎
前言代码未动,配置先行.本篇文章主要讲述一下Scrapy中的配置文件settings.py的参数含义,以及如何去获取一个爬虫程序的运行性能指标. 这篇文章无聊的一匹,没有代码,都是配置化的东西,但是 ...
Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
Scrapy笔记10- 动态配置爬虫
Scrapy笔记10- 动态配置爬虫有很多时候我们需要从多个网站爬取所需要的数据,比如我们想爬取多个网站的新闻,将其存储到数据库同一个表中.我们是不是要对每个网站都得去定义一个Spider类呢? 其 ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
爬虫框架Scrapy之Settings
Settings Scrapy设置(settings)提供了定制Scrapy组件的方法.可以控制包括核心(core),插件(extension),pipeline及spider组件.比如设置Json ...
settings配置与model优化
settings配置与model优化 settings: 项目基本配置(settings.py, models.py, admin.py, templates...).数据库操作.中间件 http: ...

随机推荐

java ThreadLocal使用
1.源码分析此处以JDK1.8版本分析 1.1 set方法 /** * Sets the current thread's copy of this thread-local variable * ...
死磕 java同步系列之redis分布式锁进化史
问题 (1)redis如何实现分布式锁? (2)redis分布式锁有哪些优点? (3)redis分布式锁有哪些缺点? (4)redis实现分布式锁有没有现成的轮子可以使用? 简介 Redis(全称:R ...
.net core 3.0 Signalr - 05 使用jwt将用户跟signalr关联
Signalr是以Group.Connect为核心来进行推送,比如,给某个组.某个连接来推送,但实际场景中,核心应该是某个组.某个人:然而一个人可以对应多个连接(浏览器多个tab页):本节就来介绍下自 ...
Python3编码解码url
python2和python3对于url的解码和编码某天做爬虫时遇到一个post请求的参数是编码过的字符串如下,看不懂,初步判断可能是url编码 str = "%7B%22Shopping ...
WCF客户端简单动态配置服务地址
本来想实现WCF服务无论放到哪个机器上,我的客户端都不需要重新编译,只需要配置一个服务的地址即可.各种百度找到了很多解决方案.但都比较繁琐,(只要因为个人小菜看不懂太多的代码)我对WCF内部机制还不了 ...
『开发技术』Ubuntu与Windows如何查看CPU&GPU&内存占用量
0 序·简介在使用Ubuntu或者Windows执行一些复杂数据运算时,需要关注下CPU.GPU以及内存占用量,如果数据运算超出了负荷,会产生难以预测的错误.本文将演示如何用简单地方式,实时监控Ub ...
springboot之本地缓存（guava与caffeine）
1. 场景描述因项目要使用本地缓存,具体为啥不用redis等,就不讨论,记录下过程,希望能帮到需要的朋友. 2.解决方案 2.1 使用google的guava作为本地缓存初步的想法是使用googl ...
Word文档操作知识
Word文档操作知识 #持续更新本次更新时间:2019-03-06 14:34 一.换行时字体空间过大问题情景:当我们编写中文的文档时,中间插入了西方的字体或符号,在以它为行尾换行时: 会出现字体 ...
C#的FTP服务器源代码
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...
Python接口测试框架实战与自动化进阶☝☝☝
Python接口测试框架实战与自动化进阶☝☝☝ 一.fiddler在工作中的运用 1.如何抓接口抓紧手机端接口 ①.在电脑终端输入:ipconfig ,找到电脑ip ②.打开手机,连接WiFi, ...

Scrapy 之settings配置

Scrapy 之settings配置的更多相关文章

随机推荐

热门专题