Settings

Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core)，插件(extension)，pipeline及spider组件。比如设置Json Pipeliine、LOG_LEVEL等。

参考文档：http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

内置设置参考手册

BOT_NAME
- 默认: 'scrapybot'
- 当您使用 startproject 命令创建项目时其也被自动赋值。
CONCURRENT_ITEMS
- 默认: 100
- Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。
CONCURRENT_REQUESTS
- 默认: 16
- Scrapy downloader 并发请求(concurrent requests)的最大值。

`DEFAULT_REQUEST_HEADERS`

默认: 如下

{

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

}

Scrapy HTTP Request使用的默认header。

DEPTH_LIMIT
- 默认: 0
- 爬取网站最大允许的深度(depth)值。如果为0，则没有限制。
DOWNLOAD_DELAY
- 默认: 0
- 下载器在下载同一个网站下一个页面前需要等待的时间。该选项可以用来限制爬取速度，减轻服务器压力。同时也支持小数:
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
- 默认情况下，Scrapy在两个请求间不等待一个固定的值，而是使用0.5到1.5之间的一个随机值 * DOWNLOAD_DELAY 的结果作为等待间隔。
DOWNLOAD_TIMEOUT
- 默认: 180
- 下载器超时时间(单位: 秒)。
ITEM_PIPELINES
- 默认: {}
- 保存项目中启用的pipeline及其顺序的字典。该字典默认为空，值(value)任意，不过值(value)习惯设置在0-1000范围内，值越小优先级越高。
```
ITEM_PIPELINES = {

'mySpider.pipelines.SomethingPipeline': 300,

'mySpider.pipelines.ItcastJsonPipeline': 800,

}
```
LOG_ENABLED
- 默认: True
- 是否启用logging。
LOG_ENCODING
- 默认: 'utf-8'
- logging使用的编码。
LOG_LEVEL
- 默认: 'DEBUG'
- log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
USER_AGENT
- 默认: "Scrapy/VERSION (+http://scrapy.org)"
- 爬取的默认User-Agent，除非被覆盖。

`PROXIES`：代理设置

示例：

PROXIES = [

  {'ip_port': '111.11.228.75:80', 'password': ''},

  {'ip_port': '120.198.243.22:80', 'password': ''},

  {'ip_port': '111.8.60.9:8123', 'password': ''},

  {'ip_port': '101.71.27.120:80', 'password': ''},

  {'ip_port': '122.96.59.104:80', 'password': ''},

  {'ip_port': '122.224.249.122:8088', 'password':''},

]

COOKIES_ENABLED = False
- 禁用Cookies

Scrapy中的Settings的更多相关文章

爬虫（十五）：scrapy中的settings详解
Scrapy设定(settings)提供了定制Scrapy组件的方法.你可以控制包括核心(core),插件(extension),pipeline及spider组件.设定为代码提供了提取以key-va ...
新版 Scrapy 中 sys.conf.settings 的替代方法
新版 Scrapy 中 sys.conf.settings 的替代方法在 scrapy 项目目录下,有个 settings.py 文件,此文件是用来存放爬虫项目的各种配置,比如说 MongoDB 的 ...
Scrapy中使用Django的Model访问数据库
Scrapy中使用Django的Model进行数据库访问当已存在Django项目的时候,直接引入Django的Model来使用比较简单 # 使用以下语句添加Django项目的目录到path impo ...
Scrapy中使用cookie免于验证登录和模拟登录
Scrapy中使用cookie免于验证登录和模拟登录引言 python爬虫我认为最困难的问题一个是ip代理,另外一个就是模拟登录了,更操蛋的就是模拟登录了之后还有验证码,真的是不让人省心,不过既然有 ...
scrapy 中日志的使用
我在后台调试在后台调试scrapy spider的时候,总是觉得后台命令窗口打印的东西太多了不便于观察日志,因此需要一个日志文件记录信息,这样以后会方便查找问题. 分两种方法吧. 1.简单粗暴. ...
[转]scrapy中的logging
logging模块是Python提供的自己的程序日志记录模块. 在大型软件使用过程中,出现的错误有时候很难进行重现,因此需要通过分析日志来确认错误位置,这也是写程序时要使用日志的最重要的原因. scr ...
论Scrapy中的数据持久化
引入 Scrapy的数据持久化,主要包括存储到数据库.文件以及内置数据存储. 那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中. 终端指令存储保证爬虫文件的parse方法中有可迭代 ...
Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...
第三百五十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中 1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信 ...

随机推荐

swipe滑动操作
1.swipe() 滑动用法 swipe(self, start_x, start_y, end_x, end_y, duration=None) :Args: - start_x - 开始滑动的x坐 ...
WSGI——python web 服务器网关接口
转载请注明原文地址:https://www.cnblogs.com/ygj0930/p/10826084.html 一:服务器.服务器软件.应用程序(后台) 我们常说“服务器”,实际上服务器是一个很宽 ...
Linux指令（压缩和解压类）
gzip/gunzip 指令 gzip用于压缩文件,gunzip用于解压基本语法: gzip文件 (功能描述:压缩文件,只能将文件压缩为*.gz文件) gunzip文件.gz (功能描述:解压缩文件命 ...
【VNCserver】Centos7.4安装VNC连接华为云或亚马逊云
1.1 文档背景 CentOS 7 / RHEL 7部署图形化界面安装VNCserver实现linux系统云主机桌面化,通过普通用户实现桌面化操作 2. Vncserver服务端部署 2.1 安装 ...
zabbix--邮件告警
zabbix 邮件告警机制通过腾讯企业邮箱进行告警通知等.邮箱服务器账号需要在邮箱设置里面进行设置,开通ssl认证及专用密码参考官档:https://www.zabbix.com/document ...
nohup 、&、 2>&1 命令分析
nohup的意思是不间断的运行,&的意思是后台运行,2>&1的意思是标准输出和错误输出都重定向到同一个文件. 简单地说nohup运行时即使关掉控制台,它该运行还是运行. http ...
认识Activiti
之前没有用到过工作流,这次由于需要,用到了Activiti工作流引擎,首先要做的就是先来了解一下什么是工作流引擎,它能够完成什么的任务,我们在什么情况下选用工作流引擎来处理问题. 1.Activiti ...
Hive元数据配置到MySql
1 驱动拷贝 1．在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包 [root@hadoop102 mysql-l ...
TCP/IP通信过程（以发送电子邮件为例）（转）
1.应用程序处理 (1)A用户启动邮件应用程序,填写收件人邮箱和发送内容,点击“发送”,开始TCP/IP通信: (2)应用程序对发送的内容进行编码处理,这一过程相当于OSI的表示层功能: (3)由A用 ...
SSH框架学习中遇到的问题
在web.xml中配置struts2过滤器时,struts2 2.5之前的版本有ng,而2.5之后没有ng,如图还有要注意web.xml的版本约束,之前一直遇到问题,后来在网上才发现原来时web的版 ...

Scrapy中的Settings

Settings

内置设置参考手册

`CONCURRENT_REQUESTS`

`DEFAULT_REQUEST_HEADERS`

`DOWNLOAD_DELAY`

`ITEM_PIPELINES`

`USER_AGENT`

`PROXIES`：代理设置

`COOKIES_ENABLED = False`

Scrapy中的Settings的更多相关文章

随机推荐

热门专题

Scrapy中的Settings

Settings

内置设置参考手册

CONCURRENT_REQUESTS

DEFAULT_REQUEST_HEADERS

DOWNLOAD_DELAY

ITEM_PIPELINES

USER_AGENT

PROXIES： 代理设置

COOKIES_ENABLED = False

Scrapy中的Settings的更多相关文章

随机推荐

热门专题

`CONCURRENT_REQUESTS`

`DEFAULT_REQUEST_HEADERS`

`DOWNLOAD_DELAY`

`ITEM_PIPELINES`

`USER_AGENT`

`PROXIES`：代理设置

`COOKIES_ENABLED = False`