python高级之scrapy-redis

一、scrapy-redis组件

1、scrapy-redis简介：

scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：

scheduler - 调度器
dupefilter - URL去重规则（被调度器使用）
pipeline - 数据持久化

2、url去重

多爬虫分布式并发，如何保证调用的url不重复。需要把爬虫队列和调度器，去重规则，提取到redis中。

组件： scrapy-redis，将去重规则和调度器放置到redis中。

流程：连接redis，指定调度器时，调用去重规则.request_seen方法。

 定义去重规则（被调度器调用并应用）

     a. 内部会使用以下配置进行连接Redis

         # REDIS_HOST = 'localhost'                            # 主机名

         # REDIS_PORT = 6379                                   # 端口

         # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

         # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

         # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

         # REDIS_ENCODING = "utf-8"                            # redis编码类型             默认：'utf-8'

     b. 去重规则通过redis的集合完成，集合的Key为：

         key = defaults.DUPEFILTER_KEY % {'timestamp': int(time.time())}

         默认配置：

             DUPEFILTER_KEY = 'dupefilter:%(timestamp)s'

     c. 去重规则中将url转换成唯一标示，然后在redis中检查是否已经在集合中存在

         from scrapy.utils import request

         from scrapy.http import Request

         req = Request(url='http://www.cnblogs.com/wupeiqi.html')

         result = request.request_fingerprint(req)

         print(result) # 8ea4fd67887449313ccc12e5b6b92510cc53675c

         PS:

             - URL参数位置不同时，计算结果一致；

             - 默认请求头不在计算范围，include_headers可以设置指定请求头

             示例：

                 from scrapy.utils import request

                 from scrapy.http import Request

                 req = Request(url='http://www.baidu.com?name=8&id=1',callback=lambda x:print(x),cookies={'k1':'vvvvv'})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

                 req = Request(url='http://www.baidu.com?id=1&name=8',callback=lambda x:print(x),cookies={'k1':666})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

 """

 # Ensure all spiders share same duplicates filter through redis.

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

ps.有关爬虫队列和调度器，去重规则详见

http://www.cnblogs.com/wangshuyang/p/7717263.html

3、调度器

 """

 调度器，调度器使用PriorityQueue（有序集合）、FifoQueue（列表）、LifoQueue（列表）进行保存请求，并且使用RFPDupeFilter对URL去重

     a. 调度器

         SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

         SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

         SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

         SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

         SCHEDULER_FLUSH_ON_START = True                                     # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

         SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

         SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

         SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 """

 # Enables scheduling storing requests queue in redis.

 SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # Default requests serializer is pickle, but it can be changed to any module

 # with loads and dumps functions. Note that pickle is not compatible between

 # python versions.

 # Caveat: In python 3.x, the serializer must return strings keys and support

 # bytes as values. Because of this reason the json or msgpack module will not

 # work by default. In python 2.x there is no such issue and you can use

 # 'json' or 'msgpack' as serializers.

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

 # Don't cleanup redis queues, allows to pause/resume crawls.

 # SCHEDULER_PERSIST = True

 # Schedule requests using a priority queue. (default)

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

 # Alternative queues.

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

 # Max idle time to prevent the spider from being closed when distributed crawling.

 # This only works if queue class is SpiderQueue or SpiderStack,

 # and may also block the same time when your spider start at the first time (because the queue is empty).

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10

4、数据持久化

 2. 定义持久化，爬虫yield Item对象时执行RedisPipeline

     a. 将item持久化到redis时，指定key和序列化函数

         REDIS_ITEMS_KEY = '%(spider)s:items'

         REDIS_ITEMS_SERIALIZER = 'json.dumps'

     b. 使用列表保存item数据

5、起始URL相关

 """

 起始URL相关

     a. 获取起始URL时，去集合中获取还是去列表中获取？True，集合；False，列表

         REDIS_START_URLS_AS_SET = False    # 获取起始URL时，如果为True，则使用self.server.spop；如果为False，则使用self.server.lpop

     b. 编写爬虫时，起始URL从redis的Key中获取

         REDIS_START_URLS_KEY = '%(name)s:start_urls'

 """

 # If True, it uses redis' ``spop`` operation. This could be useful if you

 # want to avoid duplicates in your start urls list. In this cases, urls must

 # be added via ``sadd`` command or you will get a type error from redis.

 # REDIS_START_URLS_AS_SET = False

 # Default start urls key for RedisSpider and RedisCrawlSpider.

 # REDIS_START_URLS_KEY = '%(name)s:start_urls'

二、scrapy-redis配置示例

1、示例文件

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

 #

 #

 # from scrapy_redis.scheduler import Scheduler

 # from scrapy_redis.queue import PriorityQueue

 # SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

 # SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

 # SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

 # SCHEDULER_FLUSH_ON_START = False                                    # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

 # SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

 # SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 #

 #

 #

 # REDIS_HOST = '10.211.55.13'                           # 主机名

 # REDIS_PORT = 6379                                     # 端口

 # # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

 # # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

 # # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

 # REDIS_ENCODING = "utf-8"                              # redis编码类型             默认：'utf-8'

2、爬虫文件

 import scrapy

 class ChoutiSpider(scrapy.Spider):

     name = "chouti"

     allowed_domains = ["chouti.com"]

     start_urls = (

         'http://www.chouti.com/',

     )

     def parse(self, response):

         for i in range(0,10):

             yield

python高级之scrapy-redis的更多相关文章

python高级之scrapy框架
目录: 爬虫性能原理 scrapy框架解析一.爬虫性能原理在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢. 1.同步执行 impor ...
老男孩Python高级全栈开发工程师三期完整无加密带课件(共104天)
点击了解更多Python课程>>> 老男孩Python高级全栈开发工程师三期完整无加密带课件(共104天) 课程大纲 1.这一期比之前的Python培新课程增加了很多干货:Linux ...
老男孩Python高级全栈开发工程师【真正的全套完整无加密】
点击了解更多Python课程>>> 老男孩Python高级全栈开发工程师[真正的全套完整无加密] 课程大纲老男孩python全栈,Python 全栈,Python教程,Django ...
python爬虫之Scrapy学习
在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...
Python实用工具包Scrapy安装教程
对于想用每个想用Python开发网络爬虫的开发者来说,Scrapy无疑是一个极好的开源工具.今天安装之后觉得Scrapy的安装确实不易啊.所以在此博文一篇,往后来着少走弯路. 废话不多说了,如果 ...
Python操作MongoDB和Redis
1. python对mongo的常见CURD的操作 1.1 mongo简介 mongodb是一个nosql数据库,无结构化.和去中心化. 那为什么要用mongo来存呢? 1. 首先.数据关系复杂,没有 ...
Python下操作Memcache/Redis/RabbitMQ说明
一.MemcacheMemcache是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但目前被许多网站使用以提升网站的访问速度,尤其对于一些大型的.需要频繁访 ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
使用python操作Memcache、Redis、RabbitMQ、
Memcache 简述: Memcache是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但目前被许多网站使用以提升网站的访问速度,尤其对于一些大型的.需要 ...

随机推荐

缓存技术PK：选择Memcached还是Redis(转)
[IT168 技术]要Memcached还是要Redis?在构建一款现代且由数据库驱动的Web应用程序并希望使其拥有更为出色的性能表现时,这个问题总会时不时出现.并给每一位开发人员带来困扰.在考虑对应 ...
微信小程序 - IOS 仿饿了么"我的",下拉橡皮筋效果
这个需求是在wepy交流群里有群友提到的. 一个小花样. 注册mixins /** * IOS专用顶部下拉橡皮筋效果 * 安卓的Page在到达顶部的时候,不能继续下拉...略过 * * 效果见饿了 ...
php url配置项
java守护线程。
java的守护线程:具体定义我也不太清楚,百度和谷歌了看的也不是很明白,但是啊,下边有给出一个例子自己领悟吧. 一.计时器的Timer声明时是否声明为守护线程对计时器的影响. /** * */ pac ...
借用smtp.qq.com发邮件
至于sentmail和postfix的配置有多么麻烦学生在这里就不多废话了...反正是配置了N个小时,最终弄的头晕眼花也没弄好... 下面的方法可以让你完全摆脱这两个工具...当然,你要是想做邮件服务 ...
（转）session、cookie与“记住我的登录状态”的功能的实现
Cookie的机制 Cookie是浏览器(User Agent)访问一些网站后,这些网站存放在客户端的一组数据,用于使网站等跟踪用户,实现用户自定义功能. Cookie的Domain和Path属性标识 ...
基于docker部署的微服务架构（四）：配置中心
原文:http://www.jianshu.com/p/b17d65934b58%20 前言在微服务架构中,由于服务数量众多,如果使用传统的配置文件管理方式,配置文件分散在各个项目中,不易于集中管理 ...
【theano】tutorial
http://deeplearning.net/software/theano/tutorial/index.html#tutorial
poj_2823 线段树
题目大意给定一行数,共N个.有一个长度为K的窗口从左向右滑动,窗口中始终有K个数字,窗口每次滑动一个数字.求各个时刻窗口中的最大值和最小值. 题目分析直接搜索,复杂度为O(n^2).本题可以看做是 ...
【BZOJ3442】学习小组费用流
[BZOJ3442]学习小组 Description [背景] 坑校准备鼓励学生参加学习小组. [描述] 共有n个学生,m个学习小组,每个学生有一定的喜好,只愿意参加其中的一些学习小组,但是校领导为学 ...

python高级之scrapy-redis

目录：

一、scrapy-redis组件

二、scrapy-redis配置示例

python高级之scrapy-redis的更多相关文章

随机推荐

热门专题