scrapy_redis 相关: 将 jobdir 保存的爬虫进度转移到 Redis

0.参考

Scrapy 隐含 bug: 强制关闭爬虫后从 requests.queue 读取的已保存 request 数量可能有误

1.说明

Scrapy 设置 jobdir，停止爬虫后，保存文件目录结构：

crawl/apps/

├── requests.queue

│   ├── active.json

│   ├── p0

│   └── p1

├── requests.seen

└── spider.state

requests.queue/p0 文件保存 priority=0 的未调度 request， p-1 对应实际 priority=1 的高优先级 request，转移到 redis 有序集合时，score 值越小排序越靠前，因此取 score 为 -1。以此类推，p1 对应 priority=-1 的低优先级 request。

requests.seen 保存请求指纹过滤器对已入队 request 的 hash 值，每行一个值。

spider.state 涉及自定义属性的持久化存储，不在本文处理范围以内。

2.实现代码

import os

from os.path import join

import re

import struct

import redis

def sadd_dupefilter(jobdir, redis_server, name):

    """See python/lib/site-packages/scrapy/dupefilters.py"""

    file = join(jobdir, 'requests.seen')

    with open(file) as f:

        print('Processing %s, it may take minutes...'%file)

        key = '%s:dupefilter'%name

        for x in f:

            redis_server.sadd(key, x.rstrip())

    print('Result: {} {}'.format(key, redis_server.scard(key)))

def zadd_requests(jobdir, redis_server, name):

    """See python/lib/site-packages/queuelib/queue.py"""

    SIZE_FORMAT = ">L"

    SIZE_SIZE = struct.calcsize(SIZE_FORMAT)

    key = '%s:requests'%name

    queue_dir = join(jobdir, 'requests.queue')

    file_list = os.listdir(queue_dir)

    file_score_dict = dict([(f, int(f[1:])) for f in file_list

                                                if re.match(r'^p-?\d+$', f)])

    for (file, score) in file_score_dict.items():

        print('Processing %s, it may take minutes...'%file)

        f = open(join(queue_dir, file), 'rb+')

        qsize = f.read(SIZE_SIZE)

        total_size, = struct.unpack(SIZE_FORMAT, qsize)

        f.seek(0, os.SEEK_END)

        actual_size = 0

        while True:

            if f.tell() == SIZE_SIZE:

                break

            f.seek(-SIZE_SIZE, os.SEEK_CUR)

            size, = struct.unpack(SIZE_FORMAT, f.read(SIZE_SIZE))

            f.seek(-size-SIZE_SIZE, os.SEEK_CUR)

            data = f.read(size)

            redis_server.execute_command('ZADD', key, score, data)

            f.seek(-size, os.SEEK_CUR)

            actual_size += 1

        print('total_size {}, actual_size {}, score {}'.format(

                total_size, actual_size, score))

        print('Result: {} {}'.format(key, redis_server.zlexcount(key, '-', '+')))

if __name__ == '__main__':

    name = 'test'

    jobdir = '/home/yourproject/crawl/apps'

    database_num = 0

    # apps/

    # ├── requests.queue

    # │   ├── active.json

    # │   ├── p0

    # │   └── p1

    # ├── requests.seen

    # └── spider.state

    password = 'password'

    host = '127.0.0.1'

    port = ''

    redis_server = redis.StrictRedis.from_url('redis://:{password}@{host}:{port}/{database_num}'.format(

                                                password=password, host=host,

                                                port=port, database_num=database_num))

    sadd_dupefilter(jobdir, redis_server, name)

    zadd_requests(jobdir, redis_server, name)

3.运行结果

scrapy_redis 相关: 将 jobdir 保存的爬虫进度转移到 Redis的更多相关文章

使用git stash命令保存和恢复进度
使用git stash命令保存和恢复进度 git stash 保存当前工作进度,会把暂存区和工作区的改动保存起来.执行完这个命令后,在运行git status命令,就会发现当前是一个干净的工作区,没有 ...
git stash 保存和恢复进度
1. stash当前修改 git stash会把所有未提交的修改(包括暂存的和非暂存的)都保存起来,用于后续恢复当前工作目录. 比如下面的中间状态,通过git stash命令推送一个新的储藏,当前的工 ...
scrapy_redis 相关: 查看保存的数据
0.参考资料 https://redis.io/topics/data-types-intro An introduction to Redis data types and abstractions ...
scrapy_redis 相关: 多线程更新 score/request.priority
0.背景使用 scrapy_redis 爬虫, 忘记或错误设置 request.priority(Rule 也可以通过参数 process_request 设置 request.priority), ...
Post请求data参数构造及巧用js脚本显示爬虫进度
小爬最近随着对python中字符串.json等理解进一步加深,发现先前我随笔中提到的data构造和传参方法略复杂,原本有更简单的方法,Mark如下. 先前小爬我使用的requests.post请求中d ...
iPhone/iOS图片相关(读取、保存、绘制、其它相关)
http://blog.csdn.net/jerryvon/article/details/7526147 20:50:42 一.读取图片 1.从资源(resource)读取 UIImage* ima ...
Agumater 爬虫进度带上了百分比,消除了.0
scrapy分布式爬虫scrapy_redis一篇
分布式爬虫原理首先我们来看一下scrapy的单机架构: 可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页 ...
Scrapy 框架，爬虫文件相关
Spiders 介绍由一系列定义了一个网址或一组网址类如何被爬取的类组成具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. 简单来说就是帮助你爬取数据的地方内部行为 #1.生成初始的Re ...

随机推荐

LODOP、C-Lodop简短排查语句
https使用,故障:1.是https网站吗,https扩展版C-Lodop如何使用参考http://www.c-lodop.com/faq/pp32.html2.双击桌面上的c-lodop快捷方式 ...
开篇python
测试代码 #!/usr/bin/env python # -*- coding: UTF-8 -*- import os import sys print(os.getcwd) print(sys.v ...
[ZJOI2016]旅行者
题目描述小Y来到了一个新的城市旅行.她发现了这个城市的布局是网格状的,也就是有n条从东到西的道路和m条从南到北的道路,这些道路两两相交形成n*m个路口 (i,j)(1<=i<=n,1&l ...
如何取消Paypal自动付款功能
在国外在线服务消费肯定会常遇到PayPal的支付方式,有些人可能PayPal有些余额可能会用这个工具来支付,但付款后,可能服务因为不满意而退掉,但第二年却自动续约了?但明明服务已退掉,这该怎么处理呢? ...
【洛谷P1516】青蛙的约会
题目大意:给定 \(a,b,c\),求线性同余方程 \(ax+by=c\) 的最小正整数解. 题解:首先判断方程是否有解,若 c 不能整出 a 与 b 的最大公约数,则无解.若有解,则利用扩展欧几里得 ...
Python并发编程之同步\异步and阻塞\非阻塞
一.什么是进程进程: 正在进行的一个过程或者说一个任务.而负责执行任务则是cpu. 进程和程序的区别: 程序仅仅只是一堆代码而已,而进程指的是程序的运行过程. 需要强调的是:同一个程序执行两次,那也 ...
php运行出现Call to undefined function curl_init()解决方法
php运行出现Call to undefined function curl_init() 64位win7/8 下PHP不支持CURL 除了将PHP.ini中的;extension=php_curl. ...
mysql My SQL获取某个表的列名
My SQL获取某个表的列名 DESC TableName SHOW COLUMNS FROM TableName SELECT COLUMN_NAME FROM information_schem ...
DirectX11 With Windows SDK--22 立方体映射：静态天空盒的读取与实现
前言这一章我们主要学习由6个纹理所构成的立方体映射,以及用它来实现一个静态天空盒. 但是在此之前先要消除两个误区: 认为这一章的天空盒就是简单的在一个超大立方体的六个面内部贴上天空盒纹理: 认为天空 ...
MongoDB3.6 一键化自动部署方案
1.系统基础配置下面的命令默认都使用root用户进行操作,操作系统为Centos7,mongodb3.6.x以上版本 1.1 修改系统配置文件/etc/security/limits.conf和/e ...