爬虫必备—scrapy-redis（分布式爬虫）

转载自：http://www.cnblogs.com/wupeiqi/articles/6912807.html

scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：

scheduler - 调度器
dupefilter - URL去重规则（被调度器使用）
pipeline - 数据持久化

scrapy-redis组件

1. URL去重

 定义去重规则（被调度器调用并应用）

     a. 内部会使用以下配置进行连接Redis

         # REDIS_HOST = 'localhost'                            # 主机名

         # REDIS_PORT = 6379                                   # 端口

         # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

         # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

         # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

         # REDIS_ENCODING = "utf-8"                            # redis编码类型             默认：'utf-8'

     b. 去重规则通过redis的集合完成，集合的Key为：

         key = defaults.DUPEFILTER_KEY % {'timestamp': int(time.time())}

         默认配置：

             DUPEFILTER_KEY = 'dupefilter:%(timestamp)s'

     c. 去重规则中将url转换成唯一标示，然后在redis中检查是否已经在集合中存在

         from scrapy.utils import request

         from scrapy.http import Request

         req = Request(url='http://www.cnblogs.com/wupeiqi.html')

         result = request.request_fingerprint(req)

         print(result) # 8ea4fd67887449313ccc12e5b6b92510cc53675c

         PS:

             - URL参数位置不同时，计算结果一致；

             - 默认请求头不在计算范围，include_headers可以设置指定请求头

             示例：

                 from scrapy.utils import request

                 from scrapy.http import Request

                 req = Request(url='http://www.baidu.com?name=8&id=1',callback=lambda x:print(x),cookies={'k1':'vvvvv'})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

                 req = Request(url='http://www.baidu.com?id=1&name=8',callback=lambda x:print(x),cookies={'k1':666})

                 result = request.request_fingerprint(req,include_headers=['cookies',])

                 print(result)

 """

 # Ensure all spiders share same duplicates filter through redis.

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

2. 调度器

 """

 调度器，调度器使用PriorityQueue（有序集合）、FifoQueue（列表）、LifoQueue（列表）进行保存请求，并且使用RFPDupeFilter对URL去重

     a. 调度器

         SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

         SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

         SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

         SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

         SCHEDULER_FLUSH_ON_START = True                                     # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

         SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

         SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

         SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 """

 # Enables scheduling storing requests queue in redis.

 SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # Default requests serializer is pickle, but it can be changed to any module

 # with loads and dumps functions. Note that pickle is not compatible between

 # python versions.

 # Caveat: In python 3.x, the serializer must return strings keys and support

 # bytes as values. Because of this reason the json or msgpack module will not

 # work by default. In python 2.x there is no such issue and you can use

 # 'json' or 'msgpack' as serializers.

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"

 # Don't cleanup redis queues, allows to pause/resume crawls.

 # SCHEDULER_PERSIST = True

 # Schedule requests using a priority queue. (default)

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

 # Alternative queues.

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.LifoQueue'

 # Max idle time to prevent the spider from being closed when distributed crawling.

 # This only works if queue class is SpiderQueue or SpiderStack,

 # and may also block the same time when your spider start at the first time (because the queue is empty).

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10

3. 数据持久化

 2. 定义持久化，爬虫yield Item对象时执行RedisPipeline

     a. 将item持久化到redis时，指定key和序列化函数

         REDIS_ITEMS_KEY = '%(spider)s:items'

         REDIS_ITEMS_SERIALIZER = 'json.dumps'

     b. 使用列表保存item数据

4. 起始URL相关

 """

 起始URL相关

     a. 获取起始URL时，去集合中获取还是去列表中获取？True，集合；False，列表

         REDIS_START_URLS_AS_SET = False    # 获取起始URL时，如果为True，则使用self.server.spop；如果为False，则使用self.server.lpop

     b. 编写爬虫时，起始URL从redis的Key中获取

         REDIS_START_URLS_KEY = '%(name)s:start_urls'

 """

 # If True, it uses redis' ``spop`` operation. This could be useful if you

 # want to avoid duplicates in your start urls list. In this cases, urls must

 # be added via ``sadd`` command or you will get a type error from redis.

 # REDIS_START_URLS_AS_SET = False

 # Default start urls key for RedisSpider and RedisCrawlSpider.

 # REDIS_START_URLS_KEY = '%(name)s:start_urls'

scrapy-redis示例

 # DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

 #

 #

 # from scrapy_redis.scheduler import Scheduler

 # from scrapy_redis.queue import PriorityQueue

 # SCHEDULER = "scrapy_redis.scheduler.Scheduler"

 # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'          # 默认使用优先级队列（默认），其他：PriorityQueue（有序集合），FifoQueue（列表）、LifoQueue（列表）

 # SCHEDULER_QUEUE_KEY = '%(spider)s:requests'                         # 调度器中请求存放在redis中的key

 # SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"                  # 对保存到redis中的数据进行序列化，默认使用pickle

 # SCHEDULER_PERSIST = True                                            # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空

 # SCHEDULER_FLUSH_ON_START = False                                    # 是否在开始之前清空 调度器和去重记录，True=清空，False=不清空

 # SCHEDULER_IDLE_BEFORE_CLOSE = 10                                    # 去调度器中获取数据时，如果为空，最多等待时间（最后没数据，未获取到）。

 # SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'                  # 去重规则，在redis中保存时对应的key

 # SCHEDULER_DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'# 去重规则对应处理的类

 #

 #

 #

 # REDIS_HOST = '10.211.55.13'                           # 主机名

 # REDIS_PORT = 6379                                     # 端口

 # # REDIS_URL = 'redis://user:pass@hostname:9001'       # 连接URL（优先于以上配置）

 # # REDIS_PARAMS  = {}                                  # Redis连接参数             默认：REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,}）

 # # REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定连接Redis的Python模块  默认：redis.StrictRedis

 # REDIS_ENCODING = "utf-8"                              # redis编码类型             默认：'utf-8'

 配置文件

配置文件

 import scrapy

 class ChoutiSpider(scrapy.Spider):

     name = "chouti"

     allowed_domains = ["chouti.com"]

     start_urls = (

         'http://www.chouti.com/',

     )

     def parse(self, response):

         for i in range(0,10):

             yield

爬虫文件

爬虫必备—scrapy-redis（分布式爬虫）的更多相关文章

【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
scrapy进行分布式爬虫
今天,参照崔庆才老师的爬虫实战课程,实践了一下分布式爬虫,并没有之前想象的那么神秘,其实非常的简单,相信你看过这篇文章后,不出一小时,便可以动手完成一个分布式爬虫! 1.分布式爬虫原理首先我们来看一 ...
scrapy补充-分布式爬虫
spiders 介绍:在项目中是创建爬虫程序的py文件 #1.Spiders是由一系列类(定义了一个网址或一组网址将被爬取)组成,具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. #2.换句 ...
Scrapy 框架分布式爬虫
分布式爬虫 scrapy-redis 实现原生scrapy 无法实现分布式调度器和管道无法被分布式机群共享环境安装 - pip install scrapy_redis 导包:from sc ...
scrapy简单分布式爬虫
经过一段时间的折腾,终于整明白scrapy分布式是怎么个搞法了,特记录一点心得. 虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘.有能人改变了scrapy的队列调度,将起始的网 ...
16 Scrapy之分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
爬虫必备—Scrapy
一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 ...
python网络爬虫（10）分布式爬虫爬取静态数据
目的意义爬虫应该能够快速高效的完成数据爬取和分析任务.使用多个进程协同完成一个任务,提高了数据爬取的效率. 以百度百科的一条为起点,抓取百度百科2000左右词条数据. 说明参阅模仿了:https: ...

随机推荐

[nuget]VS中包管理器打开后找不到其它工程的问题
今天新建工程做小组内用的工具,打算做个winform的项目, 用vs新建了winform项目,简单分下层吧,又加了两个类库项目, 然后,要用到的包需要nuget安装,于是发生这个问题: [VS]在so ...
如何查看linux服务器的版本和配置信息
linux下看配置,可没有windows那么直观.你只能一个一个查看. 一:cpu[root@srv /]# more /proc/cpuinfo | grep "modelname&quo ...
Gson简单使用
最近做个IM类型的Android 应用,由于有三种客户端(pc,ios,Android),所以底层使用的是C++与服务器通信,所以通信部分基本上有c++完成,封装好Jni即可,可以把底层c++通信看成 ...
Python爬虫之关于登录那些事
常见的登录方式有以下两种: 查看登录页面,csrf,cookie;授权:cookie 直接发送post请求,获取cookie 上面只是简单的描述,下面是详细的针对两种登录方式的时候爬虫的处理方法第一 ...
干货 | 自适应大邻域搜索(Adaptive Large Neighborhood Search)入门到精通超详细解析-概念篇
01 首先来区分几个概念关于neighborhood serach,这里有好多种衍生和变种出来的胡里花俏的算法.大家在上网搜索的过程中可能看到什么Large Neighborhood Serach, ...
聚类系数可变无标度网络模型Holme-Kim HK模型
# -*- coding: cp936 -*- import random import networkx as nx from networkx.generators.classic import ...
web前端导出csv文件
前言导出文件,使用最多的方式还是服务器端来处理.比如jsp 中使用response 的方式. 但是,有时候可能就想使用web 前端是否也可以把页面上的内容导出来呢? 比如说,导出页面的一个表格. 这 ...
Failed to instantiate CLSID_VirtualBox w/ IVirtualBox, but CLSID_VirtualBox w/ IUnknown works.
我是 win7 64位解决办法: 1, win+r 快捷键打开 “运行”,输入regedit 打开注册表 2,找到 HKEY_CLASSES_ROOT\CLSID\{00020420-0000-00 ...
Pl/SQl 安装和配置Oracle 数据库连接
在进行企业开发时,数据库(oracle)一般在我们本地安装的:另外,oracle数据库比较大,在本地安装,会拖慢电脑的速度.我们可以通过oracle客户端,远程连接数据库.下面介绍自己的安装方式 1. ...
安装scrapy报错 error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
报错内容:Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools" ...

爬虫必备—scrapy-redis（分布式爬虫）

转载自：http://www.cnblogs.com/wupeiqi/articles/6912807.html

scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能：

scrapy-redis组件

scrapy-redis示例

爬虫必备—scrapy-redis（分布式爬虫）的更多相关文章

随机推荐

热门专题