scrapy本身并不是一个为分布式爬取而设计的框架,但第三方库scrapy-redis为其扩展了分布式抓取的功能,在分布式爬虫框架中,需要使用某种通信机制协调各个爬虫工作

(1)当前的爬取任务,下载+提取数据(分配任务)

(2)当前爬取任务是否已经被其他爬虫执行过(任务去重)

(3)如何存储怕去到的数据(数据存储)

scrapy-redis利用Redis数据库作为多个爬虫的数据共享

下载源码:

$git clone https://github.com/rolando/scrapy-redis

分布式需要解决两个基本问题,

1分配爬取任务,分配每个爬虫不同任务;2汇总爬取数据,将所有数据汇总

scrapy-redis为多个爬虫分配爬取任务方式是:让所有的爬虫共享一个存在于Redis数据库中的请求队列(替代了每个爬虫独立的请求队列),每个爬虫从请求队列中获取请求,下载并解析页面,将解析出来的新请求加入到请求队列,每个爬虫既是生产者又是消费者。重新实现了一下的组件(1)基于Redis的请求队列(2)基于Redis的请求去重过滤器(3)基于以上两个组件的调度器。

搭建环境

首先搭建scrapy-redis分布式爬虫环境,假设三台A(116.29.00.000)、B、C

三台安装scrapy和scrapy-redis

pip install scrapy

pip install scrapy-redis

选择其中A(116.29.00.000)为搭建所有爬虫使用的Redis数据库

1.安装redis-server

  sudo apt-get install redis-server

2.在Redis配置文件中修改服务器的绑定地址,以确保数据库可被所有爬虫访问到

  sudo vi  /etc/redis/redis.conf

    ....

    #bin 127.0.0.1

    bin 0.0.0.0

  

3.启动Redis服务器

  sudo service redis-server restart

测试能否访问到 :redis-cli -h 166.29.00.00 ping

复制一份项目代码

在配置文件settings.py中添加scrapy-redis的相关配置

REDIS_URL = 'redis://116.35.00.00:6379'   #指定爬虫需要的使用的Redis数据库

SCHEDULER= 'scrapy_redis.scheduler.Scheduler'       #使用scrapy_redis的调度器替代原有的调度器

DUPEFILTER_CLASS = ‘scrapy_redis.dupefilter.RFPDupeFilter’    #使用scrapy_redis的RFPDupeFilter作为去重过滤器

ITEM_PIPELINES={

'scrapy_redis.pipilines.RedisPipeline':300

}#启用scrapy_redis的RedisPipeline将爬取到的数据汇总到Redis数据库

将单机版spider改为分布式spider

from scrapy_redis.spider import RedisSpider

class NameSpider(RedisSpider):

#将start_urls注释
#start_urls=['']

运行之后,由于Redis起始的列表和请求队列都是空的,此时需要在A中设置起爬点,

redis-cli -h 116.29.00.000

lpush name:start_urls 'http://........'

scrapy分布式抓取基本设置的更多相关文章

  1. WebMagic实现分布式抓取以及断点抓取

    访问我的博客 前言 从去年到今年,笔者主要负责的是与合作方的内容对接,新增的合作商不是很多的情况下,在我自从去年引入了 WebMagic 这个爬虫框架之后,基本很少需要去关注维护爬虫,做的最多的是新接 ...

  2. python爬虫学习:分布式抓取

    前面的文章都是基于在单机操作,正常情况下,一台机器无论配置多么高,线程开得再多,也总会有一个上限,或者说成本过于巨大.因此,本文将提及分布式的爬虫,让爬虫的效率提高得更快. 构建分布式爬虫首先需要有多 ...

  3. 利用python scrapy 框架抓取豆瓣小组数据

    因为最近在找房子在豆瓣小组-上海租房上找,发现搜索困难,于是想利用爬虫将数据抓取. 顺便熟悉一下Python. 这边有scrapy 入门教程出处:http://www.cnblogs.com/txw1 ...

  4. python分布式抓取网页

    呵呵,前两节好像和python没多大关系..这节完全是贴代码, 这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧. 对于编码格式确实搞得我头大..取下来页面不知道是什么编码,所以先找c ...

  5. 用scrapy数据抓取实践

    本文来自网易云社区 作者:沈高峰 数据分析中需要用到的不少数据都是需要进行抓取的,并且需要对抓取的数据进行解析之后存入数据库.scrapy是一个强大的爬虫框架,本文简单介绍下使用scrapy进行垂直抓 ...

  6. scrapy递归抓取网页数据

    scrapy spider的parse方法能够返回两种值:BaseItem.或者Request.通过Request能够实现递归抓取. 假设要抓取的数据在当前页,能够直接解析返回item(代码中带**凝 ...

  7. scrapy自动抓取蛋壳公寓最新房源信息并存入sql数据库

    利用scrapy抓取蛋壳公寓上的房源信息,以北京市为例,目标url:https://www.dankegongyu.com/room/bj 思路分析 每次更新最新消息,都是在第一页上显示,因此考虑隔一 ...

  8. scrapy框架抓取表情包/(python爬虫学习)

    抓取网址:https://www.doutula.com/photo/list/?page=1 1.创建爬虫项目:scrapy startproject biaoqingbaoSpider 2.创建爬 ...

  9. Scrapy 分布式爬取

    由于受到计算机能力和网络带宽的限制,单台计算机运行的爬虫咋爬取数据量较大时,需要耗费很长时间.分布式爬取的思想是“人多力量大”,在网络中的多台计算机同时运行程序,公童完成一个大型爬取任务, Scrap ...

随机推荐

  1. Java实现 LeetCode 338 比特位计数

    338. 比特位计数 给定一个非负整数 num.对于 0 ≤ i ≤ num 范围中的每个数字 i ,计算其二进制数中的 1 的数目并将它们作为数组返回. 示例 1: 输入: 2 输出: [0,1,1 ...

  2. java实现第三届蓝桥杯方块填数

    方块填数 "数独"是当下炙手可热的智力游戏.一般认为它的起源是"拉丁方块",是大数学家欧拉于1783年发明的. 如图[1.jpg]所示:6x6的小格被分为6个部 ...

  3. Spring Cloud 系列之 Apollo 配置中心(四)

    本篇文章为系列文章,未读前几集的同学请猛戳这里: Spring Cloud 系列之 Apollo 配置中心(一) Spring Cloud 系列之 Apollo 配置中心(二) Spring Clou ...

  4. iOS-Core Foundation框架到Foundation桥接的三种方式

    温故知新.勤总结,才能生巧!这次总结一下 :Core Foundation框架到Foundation桥接的三种方式 Foundation提供OC的基础类(像NSObject).基本数据类型等. Cor ...

  5. 秒懂系列,超详细Java枚举教程!!!

    所有知识体系文章,GitHub已收录,欢迎Star!再次感谢,愿你早日进入大厂! GitHub地址: https://github.com/Ziphtracks/JavaLearningmanual ...

  6. Node第三方模块

    node第三方模块集合 1.nrm 切换npm下载的镜像地址 nrm ls   查看可用镜像 nrm use +镜像名 2.nodemon 在控制台nodenom替代node命令执行nodejs文件, ...

  7. 《大话数据库》-SQL语句执行时,底层究竟做了什么小动作?

    <大话数据库>-SQL语句执行时,底层究竟做了什么小动作? 前言 大家好,我是Taoye,试图用玩世不恭过的态度对待生活的Coder. 现如今我们已然进入了大数据时代,无论是业内还是业外的 ...

  8. Numpy中的广播机制,数组的广播机制(Broadcasting)

    这篇文章把numpy中的广播机制讲的十分透彻: https://jakevdp.github.io/PythonDataScienceHandbook/02.05-computation-on-arr ...

  9. 3.kubernetes的CNI网络插件-Flannel

    目录 1.1.K8S的CNI网络插件-Flannel 1.1.1.集群规划 1.1.2.下载软件.解压.软链接 1.1.3.最终目录结构 1.1.4.拷贝证书 1.1.5.创建配置 1.1.6.创建启 ...

  10. 网站搬家之mysql 5.7 date类型默认值不能设置‘0000-00-00’的问题

    网站搬家,mysql版本由5.6升级到5.7,遇到问题: mysql 5.7之后版本datetime默认值设置'0000-00-00',出现异常:Invalid default value for ' ...