python高级之scrapy-redis

一、scrapy-redis组件

1、scrapy-redis简介：

scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：

scheduler - 调度器
dupefilter - URL去重规则（被调度器使用）
pipeline - 数据持久化

2、url去重

多爬虫分布式并发，如何保证调用的url不重复。需要把爬虫队列和调度器，去重规则，提取到redis中。

组件： scrapy-redis，将去重规则和调度器放置到redis中。

流程：连接redis，指定调度器时，调用去重规则.request_seen方法。

 定义去重规则（被调度器调用并应用）

     a. 内部会使用以下配置进行连接Redis

         # REDIS_HOST = 'localhost'                            # 主机名

         # REDIS_PORT = 6379                                   # 端口

         # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

         # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

         # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

         # REDIS_ENCODING = "utf-8"                            # redis编码类型             默认：'utf-8'

     b. 去重规则通过redis的集合完成，集合的Key为：

         key = defaults.DUPEFILTER_KEY % {'timestamp': int(time.time())}

         默认配置：

             DUPEFILTER_KEY = 'dupefilter:%(timestamp)s'

     c. 去重规则中将url转换成唯一标示，然后在redis中检查是否已经在集合中存在

         from scrapy.utils import request

         from scrapy.http import Request

         req = Request(url='http://www.cnblogs.com/wupeiqi.html')

         result = request.request_fingerprint(req)

         print(result) # 8ea4fd67887449313ccc12e5b6b92510cc53675c

         PS:

             - URL参数位置不同时，计算结果一致；

             - 默认请求头不在计算范围，include_headers可以设置指定请求头

             示例：

                 from scrapy.utils import request

                 from scrapy.http import Request

                 req = Request(url='http://www.baidu.com?name=8&id=1',callback=lambda x:print(x),cookies={'k1':'vvvvv'})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

                 req = Request(url='http://www.baidu.com?id=1&name=8',callback=lambda x:print(x),cookies={'k1':666})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

 """

 # Ensure all spiders share same duplicates filter through redis.

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

ps.有关爬虫队列和调度器，去重规则详见

http://www.cnblogs.com/wangshuyang/p/7717263.html

3、调度器

 """

 调度器，调度器使用PriorityQueue（有序集合）、FifoQueue（列表）、LifoQueue（列表）进行保存请求，并且使用RFPDupeFilter对URL去重

     a. 调度器

         SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

         SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

         SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

         SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

         SCHEDULER_FLUSH_ON_START = True                                     # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

         SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

         SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

         SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 """

 # Enables scheduling storing requests queue in redis.

 SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # Default requests serializer is pickle, but it can be changed to any module

 # with loads and dumps functions. Note that pickle is not compatible between

 # python versions.

 # Caveat: In python 3.x, the serializer must return strings keys and support

 # bytes as values. Because of this reason the json or msgpack module will not

 # work by default. In python 2.x there is no such issue and you can use

 # 'json' or 'msgpack' as serializers.

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

 # Don't cleanup redis queues, allows to pause/resume crawls.

 # SCHEDULER_PERSIST = True

 # Schedule requests using a priority queue. (default)

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

 # Alternative queues.

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

 # Max idle time to prevent the spider from being closed when distributed crawling.

 # This only works if queue class is SpiderQueue or SpiderStack,

 # and may also block the same time when your spider start at the first time (because the queue is empty).

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10

4、数据持久化

 2. 定义持久化，爬虫yield Item对象时执行RedisPipeline

     a. 将item持久化到redis时，指定key和序列化函数

         REDIS_ITEMS_KEY = '%(spider)s:items'

         REDIS_ITEMS_SERIALIZER = 'json.dumps'

     b. 使用列表保存item数据

5、起始URL相关

 """

 起始URL相关

     a. 获取起始URL时，去集合中获取还是去列表中获取？True，集合；False，列表

         REDIS_START_URLS_AS_SET = False    # 获取起始URL时，如果为True，则使用self.server.spop；如果为False，则使用self.server.lpop

     b. 编写爬虫时，起始URL从redis的Key中获取

         REDIS_START_URLS_KEY = '%(name)s:start_urls'

 """

 # If True, it uses redis' ``spop`` operation. This could be useful if you

 # want to avoid duplicates in your start urls list. In this cases, urls must

 # be added via ``sadd`` command or you will get a type error from redis.

 # REDIS_START_URLS_AS_SET = False

 # Default start urls key for RedisSpider and RedisCrawlSpider.

 # REDIS_START_URLS_KEY = '%(name)s:start_urls'

二、scrapy-redis配置示例

1、示例文件

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

 #

 #

 # from scrapy_redis.scheduler import Scheduler

 # from scrapy_redis.queue import PriorityQueue

 # SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

 # SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

 # SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

 # SCHEDULER_FLUSH_ON_START = False                                    # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

 # SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

 # SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 #

 #

 #

 # REDIS_HOST = '10.211.55.13'                           # 主机名

 # REDIS_PORT = 6379                                     # 端口

 # # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

 # # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

 # # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

 # REDIS_ENCODING = "utf-8"                              # redis编码类型             默认：'utf-8'

2、爬虫文件

 import scrapy

 class ChoutiSpider(scrapy.Spider):

     name = "chouti"

     allowed_domains = ["chouti.com"]

     start_urls = (

         'http://www.chouti.com/',

     )

     def parse(self, response):

         for i in range(0,10):

             yield

python高级之scrapy-redis的更多相关文章

python高级之scrapy框架
目录: 爬虫性能原理 scrapy框架解析一.爬虫性能原理在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢. 1.同步执行 impor ...
老男孩Python高级全栈开发工程师三期完整无加密带课件(共104天)
点击了解更多Python课程>>> 老男孩Python高级全栈开发工程师三期完整无加密带课件(共104天) 课程大纲 1.这一期比之前的Python培新课程增加了很多干货:Linux ...
老男孩Python高级全栈开发工程师【真正的全套完整无加密】
点击了解更多Python课程>>> 老男孩Python高级全栈开发工程师[真正的全套完整无加密] 课程大纲老男孩python全栈,Python 全栈,Python教程,Django ...
python爬虫之Scrapy学习
在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...
Python实用工具包Scrapy安装教程
对于想用每个想用Python开发网络爬虫的开发者来说,Scrapy无疑是一个极好的开源工具.今天安装之后觉得Scrapy的安装确实不易啊.所以在此博文一篇,往后来着少走弯路. 废话不多说了,如果 ...
Python操作MongoDB和Redis
1. python对mongo的常见CURD的操作 1.1 mongo简介 mongodb是一个nosql数据库,无结构化.和去中心化. 那为什么要用mongo来存呢? 1. 首先.数据关系复杂,没有 ...
Python下操作Memcache/Redis/RabbitMQ说明
一.MemcacheMemcache是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但目前被许多网站使用以提升网站的访问速度,尤其对于一些大型的.需要频繁访 ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
使用python操作Memcache、Redis、RabbitMQ、
Memcache 简述: Memcache是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但目前被许多网站使用以提升网站的访问速度,尤其对于一些大型的.需要 ...

随机推荐

jasperreports+Ireport开发搭建
1.报表依赖 <dependency> <groupId>net.sf.jasperreports</groupId> <artifactId>jasp ...
gin入门
Download and install it: $ go get github.com/gin-gonic/gin Import it in your code: import "gith ...
OSX监听全局键盘按下事件并捕获事件源的硬件接口位置
在OSX系统全局监听键盘的按下事件,并可以捕获事件源的硬件的接口位置,用于区分是哪个键盘产生的事件.下面的代码只是以键盘为例子,其实是可以适用于其他输入外设的.如有需要可搜索相关外设的匹配字典的创建代 ...
【cf492】D. Vanya and Computer Game（二分）
http://codeforces.com/contest/492/problem/D 有时候感觉人sb还是sb,为什么题目都看不清楚? x per second, y per second... 于 ...
【Python】用文本打印树
From:http://zhidao.baidu.com/link?url=O8U5TynGBMojDw2iFhlghPPf5_ZE1X8CAQMrK19pv-KxhvKCc6Z2yzsoQaukgN ...
各种API中文文档下载地址
转发: http://www.aseoe.com/api-download/download.html jquery easyui 帮助文档: http://download.csdn.net/dow ...
如何用C语言读写文件
#include "stdio.h"#include <stdlib.h> main(){ FILE *fp1;//定义文件流指针,用于打开读取的文件 FILE *fp ...
U盘重装Windows系统
1.制作一个U盘老毛桃或者大白菜 2.进入BIOS 3.Secure Boot-Disabled,作用是关闭微软的Secure BOOT,这个功能开启会导致不能识别U盘启动系统的安装 4.Lauch ...
总结界面框架_UI_Adapter
本人定期更新经典案例及解决方案如有疑问请联系我QQ1822282728 -- 277627117 下面是常用到的ui Demo 安卓三级筛选菜单listview(非常经典) http://dow ...
echarts x轴坐标文字显示不全
在echarts中应用柱状图或者折线图时,当数据量过多的时候,X轴的坐标就会显示不全(如下图图一),在ECharts图表组件内部有一个机制,用于统计xAxis坐标刻度的个数和图表宽度,从而会自动调整刻 ...

python高级之scrapy-redis

目录：

一、scrapy-redis组件

二、scrapy-redis配置示例

python高级之scrapy-redis的更多相关文章

随机推荐

热门专题