Scrapy-settings.py常规配置

# Scrapy settings for scrapy_demo project

#

# For simplicity, this file contains only settings considered important or

# commonly used. You can find more settings consulting the documentation:

#

#     https://docs.scrapy.org/en/latest/topics/settings.html

#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html

# 爬虫项目名，在你使用scrapy startproject <项目名> 时设置的。

BOT_NAME = "scrapy_demo"

# 爬虫文件模块所在的路径

SPIDER_MODULES = ["scrapy_demo.spiders"]

# 使用命令scrapy genspider 生成爬虫文件时存放文件的路径

NEWSPIDER_MODULE = "scrapy_demo.spiders"

# Crawl responsibly by identifying yourself (and your website) on the user-agent

# 可以在这里设置UA，也可以在默认的请求头配置DEFAULT_REQUEST_HEADERS中设置

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0'

# Obey robots.txt rules

# 遵守 robots.txt 规则，默认为True（遵守就不要爬了...）

# ROBOTSTXT_OBEY = True

ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)

# 配置 Scrapy 执行的最大并发请求数（针对整个scrapy）

#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)

# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay

# See also autothrottle settings and docs

# 为同一网站的请求配置延迟（默认值：0）

# 请参阅 https://docs.scrapy.org/en/latest/topics/settings.html#download-delay

# 另请参阅自动节流设置和文档

DOWNLOAD_DELAY = 5

# The download delay setting will honor only one of:

# 下载并发延迟设置（只接收下列两个中的其中一个）

#CONCURRENT_REQUESTS_PER_DOMAIN = 16   # 针对每个domain的并发最大请求数

#CONCURRENT_REQUESTS_PER_IP = 16   # 针对每个IP的并发最大请求数，如果和上面的同时开启，这个设置优先级比较大。

# Disable cookies (enabled by default)

# 是否启动Cookies，默认是启用的。有些网站并不需要使用cookies就能爬，关闭会增加效率。

#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)

#TELNETCONSOLE_ENABLED = False

# Override the default request headers:

# 覆盖默认的请求头

# （也可以在这里设置UA）

#DEFAULT_REQUEST_HEADERS = {

#    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",

#    "Accept-Language": "en",

#}

# Enable or disable spider middlewares

# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html

#SPIDER_MIDDLEWARES = {

#    "scrapy_demo.middlewares.ScrapyDemoSpiderMiddleware": 543,

#}

# Enable or disable downloader middlewares

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

# 下载器中间件，可以在中间件中统一处理UA、代理IP，例如随机选择UA、代理IP

#DOWNLOADER_MIDDLEWARES = {

#    "scrapy_demo.middlewares.ScrapyDemoDownloaderMiddleware": 543,

#}

# Enable or disable extensions

# See https://docs.scrapy.org/en/latest/topics/extensions.html

#EXTENSIONS = {

#    "scrapy.extensions.telnet.TelnetConsole": None,

#}

# Configure item pipelines

# 配置pipelines，你写的pipelines必须在这里配置启动，就好像django的子应用需要注册一样

# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   "scrapy_demo.pipelines.ScrapyDemoPipeline": 300,  # 这里的数值是定义优先级，数字越小，优先级越高。

}

# Enable and configure the AutoThrottle extension (disabled by default)

# See https://docs.scrapy.org/en/latest/topics/autothrottle.html

# 自动限流插件

#AUTOTHROTTLE_ENABLED = True

# The initial download delay

#AUTOTHROTTLE_START_DELAY = 5

# The maximum download delay to be set in case of high latencies

#AUTOTHROTTLE_MAX_DELAY = 60

# The average number of requests Scrapy should be sending in parallel to

# each remote server

#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

# Enable showing throttling stats for every response received:

#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)

# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings

#HTTPCACHE_ENABLED = True

#HTTPCACHE_EXPIRATION_SECS = 0

#HTTPCACHE_DIR = "httpcache"

#HTTPCACHE_IGNORE_HTTP_CODES = []

#HTTPCACHE_STORAGE = "scrapy.extensions.httpcache.FilesystemCacheStorage"

# Set settings whose default value is deprecated to a future-proof value

REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"

TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"

# 定义FEED数据输出时默认的编码格式

FEED_EXPORT_ENCODING = "utf-8"

# 下载器的默认超时时间（默认为180秒）

# 这里设置的时每个爬虫的默认下载器超时时间，也可以使用request.meta["download_timeout"]来为每个请求设置下载器的超时时间

DOWNLOAD_TIMEOUT = 20

##### 自定义设置  ###

# IP地址池（一般IP地址池都是放在redis中维护，因为快呀！！）

IP_PROXY_POOL = (

   "127.0.0.1:6789",

   "127.0.0.1:6789",

   "127.0.0.1:6789",

   "127.0.0.1:6789",

)

Scrapy-settings.py常规配置的更多相关文章

调用settings.py的配置信息作为全局使用
项目中一些比较零散的信息可以保存在数据库,也可以保存在settings.py里面并且这些变量也可以像引用数据里面的数据使用, 可以把信息保存在settings.py里面,也可以保存在数据 ...
settings.py常规配置项
settings.py常见配置项 1. 配置Django_Admin依照中文界面显示 LANGUAGE_CODE = 'zh-hans' 2. 数据库配置(默认使用sqlite3) 使用MySQL的配 ...
settings.py相关配置
INSTALLED_APPS #配置项目绑定的应用 TEMPLATES #配置项目使用的模板引擎 DATABASES #设定绑定的数据库 TIME_ZONE #设定时区,时区的设定可能 ...
scrapy 为每个pipeline配置spider
在settings.py里面配置pipeline,这里的配置的pipeline会作用于所有的spider,我们可以为每一个spider配置不同的pipeline, 设置 Spider 的 custom ...
0007 settings.py配置文件详解
01 DEBUG调试配置开发期设置为True,发布时设置为False 02 INSTALLED_APPS已安装的APP配置 INSTALLED_APPS = [ 'django.contrib.ad ...
scrapy实现数据持久化、数据库连接、图片文件下载及settings.py配置
数据持久化的两种方式:(1)基于终端指令的持久化存储:(2)基于管道的持久化存储基于终端指令的持久化存储在爬虫文件的parse方法中必须要return可迭代对象类型(通常为列表或字典等)的返回值, ...
分布式爬虫scrapy-redis中settings.py中的配置信息
SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 使用scrapy-redis的调度器 ITEM_PIPELINES = { 'sc ...
【5】Django项目配置settings.py详解
夫唯不争,故天下莫能与之争 --老子<道德经> 本节内容 1.项目配置文件settings.py介绍 2.数据库配置[MySQL] 3.创建模型对象并和数据库同步 4.python官方提供 ...
django项目settings.py的基础配置
一个新的django项目初始需要配置settings.py文件: 1. 项目路径配置新建一个apps文件夹,把所有的项目都放在apps文件夹下,比如apps下有一个message项目,如果不进行此项 ...
0004 工程配置settings.py
两个目录的区别: 工程目录是指包含manage.py文件的目录配置目录是批包含settings.py文件的目录在配置目录中找到并打工settings.py文件,做以下配置: 01 DEBUG DE ...

随机推荐

使用 Sealos 在离线环境中光速安装 K8s 集群
作者:尹珉.Sealos 开源社区 Ambassador,云原生爱好者. 当容器化交付遇上离线环境在当今快节奏的软件交付环境中,容器化交付已经成为许多企业选择的首选技术手段.在可以访问公网的环境下, ...
原来你是这样的JAVA[04]-数组Arrays
一.打印数组 Arrays类提供了打印数组元素的方法,Arrays.toString()和Arrays.deepToString(). //打印数组 System.out.println(Arrays ...
使用vscodep快速编写markdown
写在前面这是一篇基于 vscode 配置,用于书写 markdown 的文章为了方便快速书写 markdown 真想使用一些便捷的快捷键去生成一些自己常用的格式或者是模版,于是自己基于自己的个人习 ...
拉普拉斯金字塔在多图HDR算法中的应用以及多曝光图像的融合算法简介。
在SSE图像算法优化系列二十九:基础的拉普拉斯金字塔融合用于改善图像增强中易出现的过增强问题(一) 一文中我们曾经描述过基于几种高频融合法则的拉普拉斯金字塔融合算法,那里是主要针对2副图像的.实际的应 ...
Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调
文本是参考文献[1]的中文翻译,主要讲解了Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调的过程.项目GitHub链接为https://github.com/iamaru ...
nginx配置kibana访问用户名和密码认证、及无认证访问配置
转载请注明出处: 在nginx上配置kibana页面访问时,默认是采用kibana的认证,一般直接安装kibana后,是没有用户名和密码认证的. 如果要在负载均衡上配置反向代理和用户认证,可按以下步骤 ...
传统的MVC开发模式和前后端分离开发模式
1. 引言在当今互联网时代,移动应用和网页应用的发展极大地推动了前后端分离开发模式的兴起.传统的后端渲染方式已经不能满足用户对高性能和优质用户体验的需求,于是前后端分离逐渐成为了一种主流的开发模式. ...
《流畅的Python》读书笔记 231007(第二章第一部分)
第2章数据结构 ABC语言是Python的爸爸~ 很多点子在现在看来都很有 Python 风格:序列的泛型操作.内置的元组和映射类型.用缩进来架构的源码.无需变量声明的强类型不管是哪种数据结构,字 ...
【短道速滑十】非局部均值滤波的指令集优化和加速（针对5*5的搜索特例，可达到单核1080P灰度图 28ms/帧的速度）。
非局部均值滤波(Non Local Means)作为三大最常提起来的去燥和滤波算法之一(双边滤波.非局部均值.BM3D),也是有着很多的论文作为研究和比较的对象,但是也是有着致命的缺点,速度慢,严重的 ...
python第6章学习笔记
# 第6章学习笔记## 简介 Python代码在执行时是按照自上向下顺序执行的. 通过流程控制语句,可以改变程序的执行顺序,也可以让指定的程序反复执行多次流程控制语句分成两大类:条件判断语句,循环 ...

Scrapy-settings.py常规配置

Scrapy-settings.py常规配置的更多相关文章

随机推荐

热门专题