Spider-scrapy日志处理

Scrapy生成的调试信息非常有用，但是通常太啰嗦，你可以在Scrapy项目中的setting.py中设置日志显示等级：

LOG_LEVEL = 'ERROR'

日志级别

Scrapy日志有五种等级，按照范围递增顺序排列如下：（注意《Python网络数据采集》书中这里有错）

CRITICAL - 严重错误
ERROR - 一般错误
WARNING - 警告信息
INFO - 一般信息
DEBUG - 调试信息

如果日志层级设置为ERROR，那么只有CRITICAL和ERROR日志会显示出来。

如果日志层级设置为DEBUG，那么所有信息都会显示出来，其它同理。

设置log级别

可以通过终端选项 -loglevel/-L 或 LOG_LEVEL 来设置log级别。

记录信息

下面给出如何使用WARING级别来记录信息

from scrapy import log
log.msg("This is a warning", level=log.WARING)

在Spider中添加log

在spider中添加log的推荐方式是使用Spider的 log() 方法。该方法会自动在调用 scrapy.log.start() 时赋值 spider 参数。

其它的参数则直接传递给 msg() 方法

scrapy.log模块

scrapy.log.start(logfile=None, loglevel=None, logstdout=None)

启动log功能。该方法必须在记录任何信息之前被调用。否则调用前的信息将会丢失。

参数：

logfile(str) - 用于保存log输出的文件路径。如果被忽略，LOG_FILE设置会被启用。如果两个参数都是None(默认值)，log会被输出到标准错误流(stderr)，一般都直接打印在终端命令行中。
loglevel - 记录的最低日志级别，可用的值在上面提到了
logstdout(boolean) - 如果设置为True，所有的应用的标准输出(包括标准错误)都将记录，例如，如果程序段中有 "print hello"，那么执行到这里时，"hello"也会被记录到日志中。

scrapy.log.msg(message,level=INFO,spider=None)

记录信息

参数：

message(str) - log信息
level - 该信息对应的级别
spider(spider 对象) - 记录信息的spider。当记录的信息和特定的spider有关联时，该参数必须使用

默认情况下日志显示在终端，但也可以通过下面的命令输出到一个独立的文件中：

$scrapy crawl spiderName -s LOG_FILE=spider.log （注意这里等号两边没有空格）

或者上面提到的 start() 中参数指定输出文件位置。

如果目录中没有spider.log 那么运行程序会创建一个新文件，然后把所有的日志都保存到里面。

如果已经存在，会在原文后面追加新的日志内容。

Spider-scrapy日志处理的更多相关文章

scrapy 日志处理
Scrapy生成的调试信息非常有用,但是通常太啰嗦,你可以在Scrapy项目中的setting.py中设置日志显示等级: LOG_LEVEL = 'ERROR' 日志级别 Scrapy日志有五种等级, ...
python爬虫-scrapy日志
1.scrapy日志介绍 Scrapy的日志系统是实现了对python内置的日志的封装 scrapy也使用python日志级别分类 logging.CRITICAL logging.ERROE log ...
Windows10 下安装scrapy 日志
Windows10 下安装scrapy 日志 1.下载python3.6 2.添加python.exe和pip.exe的路径到系统环境变量path中如c:\python36_64 C:\Python ...
Scrapy日志等级以及请求传参
日志等级请求传参提高scrapy的爬取效率日志等级 - 日志信息: 使用命令:scrapy crawl 爬虫文件运行程序时,在终端输出的就是日志信息: - 日志信息的种类: - ERROR ...
scrapy 日志一般配置
scrapy框架post请求发送，五大核心组件，日志等级，请求传参
一.post请求发送 - 问题:爬虫文件的代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答: ...
Scrapy 教程(九)-日志系统
最新版本的 scrapy 已经废弃了 scrapy.log 的使用,赞成显示调用python标准日志记录. Python 内建日志系统 import logging ### python 内建 log ...
Scrapy（六）：Spider
总结自:Spiders - Scrapy 2.5.0 documentation Spider 1.综述 ①在回调函数Parse及其他自写的回调函数中,必须返回Item对象.Request对象.或前两 ...
97、爬虫框架scrapy
本篇导航: 介绍与安装命令行工具项目结构以及爬虫应用简介 Spiders 其它介绍爬取亚马逊商品信息一.介绍与安装 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, ...
[原创]手把手教你写网络爬虫（4）：Scrapy入门
手把手教你写网络爬虫(4) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 上期我们理性的分析了为什么要学习Scrapy,理由只有一个,那就是免费,一分钱都不用花! 咦?怎么有人扔西红柿 ...

随机推荐

P2885 [USACO07NOV]电话线Telephone Wire——Chemist
题目: https://www.luogu.org/problemnew/show/P2885 由于把每一根电线杆增加多少高度不确定,所以很难直接通过某种方法算出答案,考虑动态规划. 状态:f [ i ...
利用OneDNS同步chrome数据
将DNS服务器改成OneDNS的 117.50.11.11 备用改为 117.50.22.22 然后刷新自己的DNS缓存,接着测试一下https://test.onedns.net即可这样既可以正常 ...
[COCI2010]HRPA
Description N个石子,A和B轮流取,A先.每个人每次最少取一个,最多不超过上一个人的个数的2倍. 取到最后一个石子的人胜出,如果A要有必胜策略,第一次他至少要取多少个. Input 第一行 ...
C# System.IO 文件流输入输出
一.读写文本文件可以用fileStream来读写文本文件,但是FileStream是通过字节形式来读写数据的,要把字节数据转换为文本,要自己处理编码转换. 对于文本文件的读写,通常用 StreamR ...
Magento Order 状态详解
流程图:
【LeetCode】297. Serialize and Deserialize Binary Tree
二叉树的序列化与反序列化. 如果使用string作为媒介来存储,传递序列化结果的话,会给反序列话带来很多不方便. 这里学会了使用 sstream 中的输入流'istringstream' 和输出流 ...
windows系统同时安装多个nodejs环境（一键切换）
由于不同程序对nodejs的环境要求不同,从而导致在单台电脑上开发多个nodejs应用很烦人: 好在gnvm,这个家伙帮我解决了问题官网: https://github.com/kenshin/gn ...
vue报错-Error: Cannot find module '@babel/core'
vue之webpack实战的时候遇到报错,Error: Cannot find module '@babel/core' 这报错,我百度了很久,后来发现报错里面有提示,发现是我的 babel-load ...
log级别
trace<debug<info<warn<error<fatal trace: 是追踪,就是程序推进以下,你就可以写个trace输出,所以trace应该会特别多,不过没 ...
Net作业调度
Net作业调度(一) -Quartz.Net入门 2014-11-01 13:14 by 蘑菇先生, 13954 阅读, 7 评论, 收藏, 编辑背景很多时候,项目需要在不同时刻,执行一个或很多个 ...

Spider-scrapy日志处理

Spider-scrapy日志处理的更多相关文章

随机推荐

热门专题