scrapy分布式抓取基本设置

scrapy本身并不是一个为分布式爬取而设计的框架，但第三方库scrapy-redis为其扩展了分布式抓取的功能，在分布式爬虫框架中，需要使用某种通信机制协调各个爬虫工作

（1）当前的爬取任务，下载+提取数据（分配任务）

（2）当前爬取任务是否已经被其他爬虫执行过（任务去重）

（3）如何存储怕去到的数据（数据存储）

scrapy-redis利用Redis数据库作为多个爬虫的数据共享

下载源码：

$git clone https://github.com/rolando/scrapy-redis

分布式需要解决两个基本问题，

1分配爬取任务，分配每个爬虫不同任务；2汇总爬取数据，将所有数据汇总

scrapy-redis为多个爬虫分配爬取任务方式是：让所有的爬虫共享一个存在于Redis数据库中的请求队列（替代了每个爬虫独立的请求队列），每个爬虫从请求队列中获取请求，下载并解析页面，将解析出来的新请求加入到请求队列，每个爬虫既是生产者又是消费者。重新实现了一下的组件（1）基于Redis的请求队列（2）基于Redis的请求去重过滤器（3）基于以上两个组件的调度器。

搭建环境

首先搭建scrapy-redis分布式爬虫环境，假设三台A(116.29.00.000)、B、C

三台安装scrapy和scrapy-redis

pip install scrapy

pip install scrapy-redis

选择其中A(116.29.00.000)为搭建所有爬虫使用的Redis数据库

1.安装redis-server

　　sudo apt-get install redis-server

2.在Redis配置文件中修改服务器的绑定地址，以确保数据库可被所有爬虫访问到

　　sudo vi /etc/redis/redis.conf

　　　　....

　　　　#bin 127.0.0.1

　　　　bin 0.0.0.0

3.启动Redis服务器

　　sudo service redis-server restart

测试能否访问到：redis-cli -h 166.29.00.00 ping

复制一份项目代码

在配置文件settings.py中添加scrapy-redis的相关配置

REDIS_URL = 'redis://116.35.00.00:6379' #指定爬虫需要的使用的Redis数据库

SCHEDULER= 'scrapy_redis.scheduler.Scheduler' #使用scrapy_redis的调度器替代原有的调度器

DUPEFILTER_CLASS = ‘scrapy_redis.dupefilter.RFPDupeFilter’ #使用scrapy_redis的RFPDupeFilter作为去重过滤器

ITEM_PIPELINES={

'scrapy_redis.pipilines.RedisPipeline':300

}#启用scrapy_redis的RedisPipeline将爬取到的数据汇总到Redis数据库

将单机版spider改为分布式spider

from scrapy_redis.spider import RedisSpider

class NameSpider(RedisSpider):

#将start_urls注释

#start_urls=['']

运行之后，由于Redis起始的列表和请求队列都是空的，此时需要在A中设置起爬点，

redis-cli -h 116.29.00.000

lpush name:start_urls 'http://........'

scrapy分布式抓取基本设置的更多相关文章

WebMagic实现分布式抓取以及断点抓取
访问我的博客前言从去年到今年,笔者主要负责的是与合作方的内容对接,新增的合作商不是很多的情况下,在我自从去年引入了 WebMagic 这个爬虫框架之后,基本很少需要去关注维护爬虫,做的最多的是新接 ...
python爬虫学习：分布式抓取
前面的文章都是基于在单机操作,正常情况下,一台机器无论配置多么高,线程开得再多,也总会有一个上限,或者说成本过于巨大.因此,本文将提及分布式的爬虫,让爬虫的效率提高得更快. 构建分布式爬虫首先需要有多 ...
利用python scrapy 框架抓取豆瓣小组数据
因为最近在找房子在豆瓣小组-上海租房上找,发现搜索困难,于是想利用爬虫将数据抓取. 顺便熟悉一下Python. 这边有scrapy 入门教程出处:http://www.cnblogs.com/txw1 ...
python分布式抓取网页
呵呵,前两节好像和python没多大关系..这节完全是贴代码, 这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧. 对于编码格式确实搞得我头大..取下来页面不知道是什么编码,所以先找c ...
用scrapy数据抓取实践
本文来自网易云社区作者:沈高峰数据分析中需要用到的不少数据都是需要进行抓取的,并且需要对抓取的数据进行解析之后存入数据库.scrapy是一个强大的爬虫框架,本文简单介绍下使用scrapy进行垂直抓 ...
scrapy递归抓取网页数据
scrapy spider的parse方法能够返回两种值:BaseItem.或者Request.通过Request能够实现递归抓取. 假设要抓取的数据在当前页,能够直接解析返回item(代码中带**凝 ...
scrapy自动抓取蛋壳公寓最新房源信息并存入sql数据库
利用scrapy抓取蛋壳公寓上的房源信息,以北京市为例,目标url:https://www.dankegongyu.com/room/bj 思路分析每次更新最新消息,都是在第一页上显示,因此考虑隔一 ...
scrapy框架抓取表情包/(python爬虫学习)
抓取网址:https://www.doutula.com/photo/list/?page=1 1.创建爬虫项目:scrapy startproject biaoqingbaoSpider 2.创建爬 ...
Scrapy 分布式爬取
由于受到计算机能力和网络带宽的限制,单台计算机运行的爬虫咋爬取数据量较大时,需要耗费很长时间.分布式爬取的思想是“人多力量大”,在网络中的多台计算机同时运行程序,公童完成一个大型爬取任务, Scrap ...

随机推荐

Java实现蓝桥杯VIP算法训练相邻字母
试题算法训练相邻字母资源限制时间限制:1.0s 内存限制:256.0MB [问题描述] 从键盘输入一个英文字母,要求按字母的顺序打印出3个相邻的字母,指定的字母在中间.若指定的字母为Z,则打印 ...
Java实现蓝桥杯VIP 算法提高 3-1课后习题2
算法提高 3-1课后习题2 时间限制:1.0s 内存限制:256.0MB 问题描述编写一个程序,接受用户输入的10个整数,输出它们的和. 输出格式要求用户的输出满足的格式. 例:输出1行,包含一个 ...
Java实现蓝桥杯VIP 算法提高 3000米排名预测
算法提高 3000米排名预测时间限制:1.0s 内存限制:256.0MB 问题描述 3000米长跑时,围观党们兴高采烈地预测着最后的排名.因为他们来自不同的班,对所有运动员不一定都了解,于是他们分别 ...
java实现第七届蓝桥杯反幻方
反幻方题目描述我国古籍很早就记载着 2 9 4 7 5 3 6 1 8 这是一个三阶幻方.每行每列以及对角线上的数字相加都相等. 下面考虑一个相反的问题. 可不可以用 1~9 的数字填入九宫格. ...
java实现第五届蓝桥杯等额本金
等额本金题目描述小明从银行贷款3万元.约定分24个月,以等额本金方式还款. 这种还款方式就是把贷款额度等分到24个月.每个月除了要还固定的本金外,还要还贷款余额在一个月中产生的利息. 假设月利率是 ...
钻进 Linux 内核看个究竟
Linux 内核,这个经常听见,却不不知道它具体是干嘛的东西,是不是觉得非常神秘? Linux 内核看不见摸不着,而对于这类东西,我们经常无从下手.本文就以浅显易懂的语言,带你钻进 Linux 内核, ...
CORS跨域漏洞学习
简介网站如果存CORS跨域漏洞就会有用户敏感数据被窃取的风险. 跨域资源共享(CORS)是一种浏览器机制,可实现对位于给定域外部的资源的受控访问.它扩展了同源策略(SOP)并增加了灵活性.但是,如果 ...
想要学深度学习但是没有GPU？我帮你找了一些不错的平台
本文始发于个人公众号:TechFlow,原创不易,求个关注上次给大家推荐了免费的spark集群之后,就有很多小伙伴来问我有没有好的云GPU平台推荐.我一直没给大家推荐,主要原因是我常年使用Mac,对 ...
怒肝俩月，新鲜出炉史上最有趣的Java小白手册，第一版，每个 Java 初学者都应该收藏
这么说吧,在我眼里,Java 就是最流行的编程语言,没有之一(PHP 往一边站).不仅岗位多,容易找到工作,关键是薪资水平也到位,不学 Java 亏得慌,对吧? 那可能零基础学编程的小伙伴就会头疼了, ...
分享一个springboot脚手架
项目介绍在我们开发项目的时候各个项目之间总有一些可共用的代码或者配置,如果我们每新建一个项目就把代码复制粘贴再修改就显得很没有必要.于是我就做了一个 poseidon-boot-starter 该项 ...

scrapy分布式抓取基本设置

scrapy分布式抓取基本设置的更多相关文章

随机推荐

热门专题