Scrapy学习-20-数据收集

Scrapy的数据收集功能

定义

　　Scrapy提供了方便的收集数据的机制。数据以key/value方式存储，值大多是计数值。

　　该机制叫做数据收集器(Stats Collector)，可以通过 Crawler API 的属性 stats 来使用。

特点

　　无论数据收集(stats collection)开启或者关闭，数据收集器永远都是可用的。

　　因此您可以import进自己的模块并使用其API(增加值或者设置新的状态键(stat keys))。

　　该做法是为了简化数据收集的方法: 您不应该使用超过一行代码来收集您的spider，Scrpay扩展或任何您使用数据收集器代码里头的状态。

　　数据收集器的另一个特性是(在启用状态下)很高效，(在关闭情况下)非常高效(几乎察觉不到)。

　　数据收集器对每个spider保持一个状态表。当spider启动时，该表自动打开，当spider关闭时，自动关闭

使用

设置数据                          stats.set_value('hostname', socket.gethostname())

增加数据值                        stats.inc_value('pages_crawled')

当新的值比原来的值大时设置数据      stats.max_value('max_items_scraped', value)

当新的值比原来的值小时设置数据      stats.min_value('min_free_memory_percent', value)

获取数据                          stats.get_value('pages_crawled')

获取所有数据                       stats.get_stats()

可用的数据收集器

　　MemoryStatsCollector

　　　　一个简单的数据收集器。其在spider运行完毕后将其数据保存在内存中。数据可以通过 spider_stats 属性访问。该属性是一个以spider名字为键(key)的字典

　　DummyStatsCollector

　　　　该数据收集器并不做任何事情但非常高效(因为什么都不做(写文档的人真调皮o(╯□╰)o))。您可以通过设置 STATS_CLASS 启用这个收集器，来关闭数据收集，提高效率。

　　　不过，数据收集的性能负担相较于Scrapy其他的处理(例如分析页面)来说是非常小的

使用实例，统计处理404页面

class JobboleSpider(scrapy.Spider):

    name = "jobbole"

    allowed_domains = ["blog.jobbole.com"]

    start_urls = ['http://blog.jobbole.com/all-posts/']

    handle_httpstatus_list = [404]

    def __init__(self, **kwargs):

        self.fail_urls = []

    def parse(self, response):

        if response.status == 404:

            self.fail_urls.append(response.url)

            self.crawler.stats.inc_value("failed_url")

# 可能会影响统计因素

# SPIDER_MIDDLEWARES = {

#    'ArticleSpider.middlewares.ArticlespiderSpiderMiddleware': 543,

# }

Scrapy学习-20-数据收集的更多相关文章

第三百五十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection) Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数 ...
三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数值. 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
Scrapy学习篇（七）之Item Pipeline
在之前的Scrapy学习篇(四)之数据的存储的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系 ...
scrapy学习（完全版）
scrapy1.6中文文档 scrapy1.6中文文档 scrapy中文文档 Scrapy框架下载页面解析页面并发深度安装 scrapy学习教程如果安装了anconda,可以在anacon ...
网站统计中的数据收集原理及实现（share）
转载自:http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html 网站数据统计分析工 ...
数据收集利器 cAdvisor - 每天5分钟玩转 Docker 容器技术（82）
cAdvisor 是 google 开发的容器监控工具,我们来看看 cAdvisor 有什么能耐. 在 host 中运行 cAdvisor 容器. docker run \ --volume=/:/r ...
万能日志数据收集器 Fluentd - 每天5分钟玩转 Docker 容器技术（91）
前面的 ELK 中我们是用 Filebeat 收集 Docker 容器的日志,利用的是 Docker 默认的 logging driver json-file,本节我们将使用 fluentd 来收集容 ...

随机推荐

PAT 乙级 1077
题目题目地址:PAT 乙级 1077 题解本题没什么难度,但是要注意细节问题,下面简单来说一下: vector 把输入的学生打分存起来,直接用算法库中的 sort 函数给它们排个序,之后直接剔除首 ...
（73）zabbix用户认证方式内建、HTTP Basic、LDAP
公司大大小小众多系统,不同系统不同的账号密码,管理上相当复杂,后来慢慢出现了SSO等账号统一验证,其他zabbix也提供了类似的方法,或许有些公司便可以使用公司提供的账号来登录zabbix了. zab ...
201621123080《Java程序设计》第12周学习总结
201621123080<Java程序设计>第12周学习总结 1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 2. 面向系统综合设计-图书馆管理系 ...
MySQL中文转换成拼音的函数
CREATE DEFINER=`root`@`localhost` FUNCTION `fristPinyin`(`P_NAME` VARCHAR(255) CHARSET utf8) RETURNS ...
【Arduino开发板刷Bootloader01】
其接线方式就是: Programmer(工具开发板) Being programmed(目标开发板) Vcc ...
matplotlib学习记录六
# 绘制多数据条形图 # 假设你知道了列表a中电影分别在2017-09-14(b_14),2017-09-15(b_15), # 2017-09-16(b_16)三天的票房,为了展示列表中电影本身的票 ...
drf 视图功能
视图 drf提供的视图功能自己的第一次封装 #一个功能写成一个类,方便组合,只要继承它就可以有这个功能 #将功能都写在一个类中,可控性就会变差 from book.myserializers imp ...
cf 1016C
C. Vasya And The Mushrooms time limit per test 2 seconds memory limit per test 256 megabytes input s ...
Linux学习-延伸正则表达式
grep 默认仅支持基础正则表达式,如果要使用延伸型正则表达式,你可以使用 grep -E , 不过更建议直接使用 egrep !直接区分指令比较好记忆!其实 egrep 与 grep -E 是类 ...
教你玩App怎么赚钱（一）
在看这篇文章之前,你一定要接受一下谋哥的观点:金钱就是价值流通的手段,不要高看了钱. 玩App怎么赚钱?貌似谋哥写的文章超级多,把这个最重要的忘记了.说实在的,我为啥要写“玩App"呢?其实 ...

Scrapy学习-20-数据收集

Scrapy学习-20-数据收集的更多相关文章

随机推荐

热门专题