爬虫必备—scrapy-redis（分布式爬虫）

转载自：http://www.cnblogs.com/wupeiqi/articles/6912807.html

scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：

scheduler - 调度器
dupefilter - URL去重规则（被调度器使用）
pipeline - 数据持久化

scrapy-redis组件

1. URL去重

 定义去重规则（被调度器调用并应用）

     a. 内部会使用以下配置进行连接Redis

         # REDIS_HOST = 'localhost'                            # 主机名

         # REDIS_PORT = 6379                                   # 端口

         # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

         # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

         # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

         # REDIS_ENCODING = "utf-8"                            # redis编码类型             默认：'utf-8'

     b. 去重规则通过redis的集合完成，集合的Key为：

         key = defaults.DUPEFILTER_KEY % {'timestamp': int(time.time())}

         默认配置：

             DUPEFILTER_KEY = 'dupefilter:%(timestamp)s'

     c. 去重规则中将url转换成唯一标示，然后在redis中检查是否已经在集合中存在

         from scrapy.utils import request

         from scrapy.http import Request

         req = Request(url='http://www.cnblogs.com/wupeiqi.html')

         result = request.request_fingerprint(req)

         print(result) # 8ea4fd67887449313ccc12e5b6b92510cc53675c

         PS:

             - URL参数位置不同时，计算结果一致；

             - 默认请求头不在计算范围，include_headers可以设置指定请求头

             示例：

                 from scrapy.utils import request

                 from scrapy.http import Request

                 req = Request(url='http://www.baidu.com?name=8&id=1',callback=lambda x:print(x),cookies={'k1':'vvvvv'})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

                 req = Request(url='http://www.baidu.com?id=1&name=8',callback=lambda x:print(x),cookies={'k1':666})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

 """

 # Ensure all spiders share same duplicates filter through redis.

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

2. 调度器

 """

 调度器，调度器使用PriorityQueue（有序集合）、FifoQueue（列表）、LifoQueue（列表）进行保存请求，并且使用RFPDupeFilter对URL去重

     a. 调度器

         SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

         SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

         SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

         SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

         SCHEDULER_FLUSH_ON_START = True                                     # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

         SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

         SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

         SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 """

 # Enables scheduling storing requests queue in redis.

 SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # Default requests serializer is pickle, but it can be changed to any module

 # with loads and dumps functions. Note that pickle is not compatible between

 # python versions.

 # Caveat: In python 3.x, the serializer must return strings keys and support

 # bytes as values. Because of this reason the json or msgpack module will not

 # work by default. In python 2.x there is no such issue and you can use

 # 'json' or 'msgpack' as serializers.

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

 # Don't cleanup redis queues, allows to pause/resume crawls.

 # SCHEDULER_PERSIST = True

 # Schedule requests using a priority queue. (default)

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

 # Alternative queues.

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

 # Max idle time to prevent the spider from being closed when distributed crawling.

 # This only works if queue class is SpiderQueue or SpiderStack,

 # and may also block the same time when your spider start at the first time (because the queue is empty).

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10

3. 数据持久化

 2. 定义持久化，爬虫yield Item对象时执行RedisPipeline

     a. 将item持久化到redis时，指定key和序列化函数

         REDIS_ITEMS_KEY = '%(spider)s:items'

         REDIS_ITEMS_SERIALIZER = 'json.dumps'

     b. 使用列表保存item数据

4. 起始URL相关

 """

 起始URL相关

     a. 获取起始URL时，去集合中获取还是去列表中获取？True，集合；False，列表

         REDIS_START_URLS_AS_SET = False    # 获取起始URL时，如果为True，则使用self.server.spop；如果为False，则使用self.server.lpop

     b. 编写爬虫时，起始URL从redis的Key中获取

         REDIS_START_URLS_KEY = '%(name)s:start_urls'

 """

 # If True, it uses redis' ``spop`` operation. This could be useful if you

 # want to avoid duplicates in your start urls list. In this cases, urls must

 # be added via ``sadd`` command or you will get a type error from redis.

 # REDIS_START_URLS_AS_SET = False

 # Default start urls key for RedisSpider and RedisCrawlSpider.

 # REDIS_START_URLS_KEY = '%(name)s:start_urls'

scrapy-redis示例

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

 #

 #

 # from scrapy_redis.scheduler import Scheduler

 # from scrapy_redis.queue import PriorityQueue

 # SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

 # SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

 # SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

 # SCHEDULER_FLUSH_ON_START = False                                    # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

 # SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

 # SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 #

 #

 #

 # REDIS_HOST = '10.211.55.13'                           # 主机名

 # REDIS_PORT = 6379                                     # 端口

 # # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

 # # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

 # # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

 # REDIS_ENCODING = "utf-8"                              # redis编码类型             默认：'utf-8'

 配置文件

配置文件

 import scrapy

 class ChoutiSpider(scrapy.Spider):

     name = "chouti"

     allowed_domains = ["chouti.com"]

     start_urls = (

         'http://www.chouti.com/',

     )

     def parse(self, response):

         for i in range(0,10):

             yield

爬虫文件

爬虫必备—scrapy-redis（分布式爬虫）的更多相关文章

【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
scrapy进行分布式爬虫
今天,参照崔庆才老师的爬虫实战课程,实践了一下分布式爬虫,并没有之前想象的那么神秘,其实非常的简单,相信你看过这篇文章后,不出一小时,便可以动手完成一个分布式爬虫! 1.分布式爬虫原理首先我们来看一 ...
scrapy补充-分布式爬虫
spiders 介绍:在项目中是创建爬虫程序的py文件 #1.Spiders是由一系列类(定义了一个网址或一组网址将被爬取)组成,具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. #2.换句 ...
Scrapy 框架分布式爬虫
分布式爬虫 scrapy-redis 实现原生scrapy 无法实现分布式调度器和管道无法被分布式机群共享环境安装 - pip install scrapy_redis 导包:from sc ...
scrapy简单分布式爬虫
经过一段时间的折腾,终于整明白scrapy分布式是怎么个搞法了,特记录一点心得. 虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘.有能人改变了scrapy的队列调度,将起始的网 ...
16 Scrapy之分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
爬虫必备—Scrapy
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 ...
python网络爬虫（10）分布式爬虫爬取静态数据
目的意义爬虫应该能够快速高效的完成数据爬取和分析任务.使用多个进程协同完成一个任务,提高了数据爬取的效率. 以百度百科的一条为起点,抓取百度百科2000左右词条数据. 说明参阅模仿了:https: ...

随机推荐

Windows下安装MySQL详细教程
Windows下安装MySQL详细教程 1.安装包下载 2.安装教程 (1)配置环境变量 (2)生成data文件 (3)安装MySQL (4)启动服务 (5)登录MySQL (6)查询用户密码 (7 ...
Python小白学习之路（十二）—【前向引用】【风湿理论】
前向引用风湿理论(函数即变量) 理论总是很抽象,我个人理解: 代码从上到下执行,一旦遇到定义的函数体,内存便为其开辟空间,并用该函数的名字作为一个标识但是该函数体内具体是什么内容,这个时候并不着急去 ...
Java的注解相关的命令
与注解处理器的有关的命令有5个,分别如下: (1)-XprintProcessorInfo 输出有关请求处理程序处理哪些注释的信息 (2)-XprintRounds 输出有关注释处理循环的信息 (3) ...
前端通信：ajax设计方案（二）---集成轮询技术
上一篇文章介绍了ajax技术核心方法,和跨域的问题(只要后台支持跨域默认post就可以),这篇文章讲解一下使用ajax实现的轮询技术,至于iframe,SSE服务器单向推送,以及webSocket双工 ...
解决python3与python2的pip命令冲突问题冲突（window版）
解决方法再上一篇有大概讲解: python开发环境安装配置这里做一些补充: 上一篇说过,删除python3和python2中的python.exe文件后关闭dos窗口,重新打开dos,就可以进行安装 ...
Django 模板中变量过滤器标签的使用方法
一.变量 1.变量的形式是:{{variable}}, 当模板引擎碰到变量的时候,引擎使用变量的值代替变量. 2.使用dot(.)能够访问变量的属性 3.当模板引擎碰到dot的 ...
MySQL中date类型的空值0000-00-00和00:00:00
1.如果mysql中使用了date类型,并且默认值为'0000-00-00', 那么数据库中的'0000-00-00 00:00:00', '0000-00-00', '00:00:00'这三个值是相 ...
术语CDATA，其实可以理解为一种特殊的转移字符
参考:http://www.w3school.com.cn/xml/xml_cdata.asp 常见于XML文档,所有 XML 文档中的文本均会被解析器解析. 只有 CDATA 区段(Charact ...
php中文转拼音2
<?php /** * strtopinyin.php * * @name 汉字字符转拼音 * @author Kudosharry * @version v1.0 * */ class Str ...
ruby大神与菜鸟的代码区别
之前Brand类 has_and_belongs_to_many :categories, index: true 现在在Category类增加 has_and_belongs_to_many ...

爬虫必备—scrapy-redis（分布式爬虫）

转载自：http://www.cnblogs.com/wupeiqi/articles/6912807.html

scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：

scrapy-redis组件

scrapy-redis示例

爬虫必备—scrapy-redis（分布式爬虫）的更多相关文章

随机推荐

热门专题