由于受到计算机能力和网络带宽的限制,单台计算机运行的爬虫咋爬取数据量较大时,需要耗费很长时间。分布式爬取的思想是“人多力量大”,在网络中的多台计算机同时运行程序,公童完成一个大型爬取任务,

  Scrapy 本身并不是一个为分布式爬取而设计的框架,但第三方库 scrapy-redis 为基扩展了分布式爬取的功能,两者结合便是一个分布式爬虫框架。在分布式怕花丛中。需要使用某种通信机制协调各个爬虫的工作,让每一份爬虫明确自己的任务,其中包括:

  (1)当前的爬去任务,即下载 + 提取数据(分配任务)

  (2)当前爬去任务是否已经被其他爬虫执行过(任务去重)

  (3)如何存储爬去到的数据(数据存储)

scrapy-redis 利用 Redis 数据库作为多个爬虫数据共享实现以上功能,

1、redis 的使用

  首先来学习一下 redis 数据库的使用, Redis 是一个速度非常快的费关系型数据库,使用内存为主存储,内存中的数据也可以被持久化到硬盘。Redis 以键值形式(key-value)存储数据,其中的值以分为一下 5 中类型:

  (1) 字符串(string)

  (2)哈希 (hash)

  (3)列表(list)

  (4)集合(set)

  (5)有序集合(zset)

  

2、安装 redis

  接下来安装 Redis, 在 Ubuntu 下可以 使用 apt-get 安装:

  

sudo apt-get installredis-server

  Redis 数据库进程是一个网络服务器,可以使用一下命令开始、重启、停止 Redis:

sudo service redis-server start  # 开启Redis
sudo serv\ice redis-server restart # 重启 Redis
sudo service redis-server stop # 停止 Redis

默认情况下,Redis 会在 127.0.0.1:6379 上开启服务,可以是用 netstat 命令进行查询:

netsat -ntl

3、Redis 基本命令

  由于篇幅有限,这里仅介绍一些 Redis 基本使用命令,按照值的 5 种类型依次讲解

  (1)字符串

    Redis 的字符串(String)可以存储字符串、整数、浮点数(数字也是字符串)。String命令描述如表:

String 命令         设置字符串key的值    
SET key value 设置字符串 key 的值
GRT key 获取字符串 key 的值
DEL key 删除 key

  (2) 列表

    Redis 的列表(List)可以有序的存储多个字符串。List 命令以及描述如图:

List 命令                  描             述
LPUSH key value1 [value2 ... ]           在列表 key 左端插入一个或多值         
RPUSH key value1 [value2 ... ] 在列表 key 右端插入一个或多个值

LPOP key

从列表左侧弹出一个值
Rpop key  从列表右侧弹出一个值
LINDEX key index 获取列表 key 中 index 位置的值

LRANGE key start end

获取列表中 key 中位置【start, end】范围的值

LIEN key 获取列表中 key 的长度

  (3)哈希

    Redis 的哈希(Hash) 可以存储多个键值对,其中的键和值都是字符串,Hash 命令及描述:

Hash 命令            描   述
Hsah key field   value  将哈希 key 的fisld 字段赋值为 value

HDEL key field [field...]

删除哈希 key 的一个或多个字段
HGET key field  获取哈希 key 的 field 字段的值
HGETALL key  获取哈希 key 的所有字段值

  (4)集合

    Redis 集合(Set)可以存储多个唯一的字符串。Set命令及描述如图:

Set 命令           描     述    
SADD key member1 [member2 ...]      向集合 key 中添加一个或多个成员    
SREM key member1 [member2 ...] 删除集合 key 中所有成员

SMEMBERS key

获取集合 key 中所有成员

SCRD key 获取集合 key 中成员数量
SISMEMBER key member  判断 member是否是集合 key 的成员 

  (5)有序集合

    Redis 中有序集合(ZSet)与集合(Set)类似,可以存储多个唯一的字符串,但在有序集合中,每个成员都有一个分数,所有成员按给定分数在集合中有序排列。

ZSet 命令

 描    述             
ZADD key score1 member1 [score2 member2 ... ] 向有序集合 key 中添加一个或多个成员           
ZREM member [member2... ] 删除有序集合 key 中一个或多个成员
ZRANGE key start stop 获取有序集合 key 中位置在 [start, stop] 范围的所有成员    
ZRANGEBYSCORE key min max

获取有序集合 key 中分值在[start, stop ]范围的所有成员

Scrapy 分布式爬取的更多相关文章

  1. 爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式

    爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式 目录 爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...

  2. scrapy-redis实现爬虫分布式爬取分析与实现

    本文链接:http://blog.csdn.net/u012150179/article/details/38091411 一 scrapy-redis实现分布式爬取分析 所谓的scrapy-redi ...

  3. scrapy关键字爬取百度图库(一)

    刚入门学习python的菜鸟,如有错误,还望指教 爬取百度图库需要知道百度图库的加载方式是通过下拉加载的,所以我们需要分析Ajax请求来爬取每一页的数据信息 表述不清直接上图片 图片一是刷新页面后加载 ...

  4. scrapy-redis + Bloom Filter分布式爬取tencent社招信息

    scrapy-redis + Bloom Filter分布式爬取tencent社招信息 什么是scrapy-redis 什么是 Bloom Filter 为什么需要使用scrapy-redis + B ...

  5. scrapy-redis分布式爬取tencent社招信息

    scrapy-redis分布式爬取tencent社招信息 什么是scrapy-redis 目标任务 安装爬虫 创建爬虫 编写 items.py 编写 spiders/tencent.py 编写 pip ...

  6. scrapy分布式抓取基本设置

    scrapy本身并不是一个为分布式爬取而设计的框架,但第三方库scrapy-redis为其扩展了分布式抓取的功能,在分布式爬虫框架中,需要使用某种通信机制协调各个爬虫工作 (1)当前的爬取任务,下载+ ...

  7. 简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息

    简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息 简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息 系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...

  8. 使用scrapy框架爬取自己的博文(2)

    之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...

  9. 如何提高scrapy的爬取效率

    提高scrapy的爬取效率 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置 ...

随机推荐

  1. AcWing 240. 食物链

    #include <iostream> using namespace std; ; int n, m; int p[N], d[N]; //p是baba,d是距离 int find(in ...

  2. 003 CSS汇总

    字体属性:(font) 大小 {font-size: x-large;}(特大) xx-small;(极小) 一般中文用不到,只要用数值就可以,单位:PX.PD 样式 {font-style: obl ...

  3. Laravel 虚拟开发环境 Homestead 密码

    默认数据库账号密码账号: homestead 密码:secret 默认 ssh 账号密码账号:vagrant 密码:vagrant创建默认 root 用户sudo passwd root

  4. jmeter实现SMTP邮件协议压测

    实现目的 通过jmeter的SMTP取样器,调用SMTP协议,批量进行邮件的发送,已达到压测的目的. 脚本实现 User Defined Variables定义用户变量 编辑SMTP Sampler取 ...

  5. Intersection over Union(IoU) algorithms

    IoU算法可用与评估两个多维度数据的相似度,举一个实际应用,做CV,目标检测,我们需要评估模型的识别准确率,不同于二元类问题,普通的评估算法不合适,于是用到了这个算法,这个算法简单易懂,评估效果也不错 ...

  6. 「JSOI2015」串分割

    「JSOI2015」串分割 传送门 首先我们会有一个贪心的想法:分得越均匀越好,因为长的绝对比短的大. 那么对于最均匀的情况,也就是 \(k | n\) 的情况,我们肯定是通过枚举第一次分割的位置,然 ...

  7. scp--linux命令

    不同服务器之间传输文件, 第一种方式: scp TC_20171230_RCE_15_37_34_build-20.tar.gz test@192.168.18.90://data/build/ 缺点 ...

  8. 负环--spfa

    洛谷板子题 负环?是有负权边的环还是一个边权之和为负的环? 还没有准确的定义(那就先忽略吧qwq 判断负环的方法: 暴力枚举/spfa/mellman—ford/奇怪的贪心/超神的搜索 可惜我只会sp ...

  9. mybaitis

    resultType="java.util.HashMap" SELECT DISTINCT c.COMPANY_LEVEL, ) over ( partition BY COMP ...

  10. JVM系列(四)之GC调优

    JVM内存参数调优 为什么要GC调优? 或者说的更确切一些,对于基于Java的服务,是否有必要优化GC?应该说,对于所有的基于Java的服务,并不总是需要进行GC优化,但当你的系统时常报了内存溢出或者 ...