在阿里云Centos7.6上面部署基于Redis的分布式爬虫Scrapy-Redis

原文转载自「刘悦的技术博客」https://v3u.cn/a_id_83

Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个服务器的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。

而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。

说白了，就是使用redis来维护一个url队列,然后scrapy爬虫都连接这一个redis获取url,且当爬虫在redis处拿走了一个url后,redis会将这个url从队列中清除,保证不会被2个爬虫拿到同一个url,即使可能2个爬虫同时请求拿到同一个url,在返回结果的时候redis还会再做一次去重处理,所以这样就能达到分布式效果,我们拿一台主机做redis 队列,然后在其他主机上运行爬虫.且scrapy-redis会一直保持与redis的连接,所以即使当redis 队列中没有了url,爬虫会定时刷新请求,一旦当队列中有新的url后,爬虫就立即开始继续爬

首先分别在主机和从机上安装需要的爬虫库

pip3 install requests scrapy scrapy-redis redis

在主机中安装redis

#安装redis

yum install redis

启动服务

systemctl start redis

查看版本号

redis-cli --version

设置开机启动

systemctl enable redis.service

修改redis配置文件 vim /etc/redis.conf 将保护模式设为no，同时注释掉bind，为了可以远程访问,另外需要注意阿里云安全策略也需要暴露6379端口

#bind 127.0.0.1

protected-mode no

改完配置后，别忘了重启服务才能生效

systemctl restart redis

然后分别新建爬虫项目

scrapy startproject myspider

在项目的spiders目录下新建test.py

#导包

import scrapy

import os

from scrapy_redis.spiders import RedisSpider

#定义抓取类

#class Test(scrapy.Spider):

class Test(RedisSpider):

    #定义爬虫名称，和命令行运行时的名称吻合

    name = "test"

    #定义redis的key

    redis_key = 'test:start_urls'

    #定义头部信息

    haders = {

        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.86 Chrome/73.0.3683.86 Safari/537.36'

    }

    def parse(self, response):

        print(response.url)

        pass

然后修改配置文件settings.py，增加下面的配置,其中redis地址就是在主机中配置好的redis地址:

BOT_NAME = 'myspider'

SPIDER_MODULES = ['myspider.spiders']

NEWSPIDER_MODULE = 'myspider.spiders'

#设置中文编码

FEED_EXPORT_ENCODING = 'utf-8'

# scrapy-redis 主机地址

REDIS_URL = 'redis://root@39.106.228.179:6379'

#队列调度

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#不清除缓存

SCHEDULER_PERSIST = True

#通过redis去重

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#不遵循robots

ROBOTSTXT_OBEY = False

最后，可以在两台主机上分别启动scrapy服务

scrapy crawl test

此时，服务已经起来了，只不过redis队列中没有任务，在等待状态

进入主机的redis

redis-cli

将任务队列push进redis

lpush test:start_urls http://baidu.com

lpush test:start_urls http://chouti.com

可以看到，两台服务器的爬虫服务分别领取了队列中的任务进行抓取，同时利用redis的特性，url不会重复抓取

爬取任务结束之后，可以通过flushdb命令来清除地址指纹，这样就可以再次抓取历史地址了。

原文转载自「刘悦的技术博客」 https://v3u.cn/a_id_83

在阿里云Centos7.6上面部署基于Redis的分布式爬虫Scrapy-Redis的更多相关文章

阿里云Centos7.6上面部署基于redis的分布式爬虫scrapy-redis将任务队列push进redis
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取.但是当我们要爬取的页面非常多的时候,单个服务器的处理能力就不能满足我们的需求了(无论是处理速度还是网络请 ...
在阿里云Centos7.6中部署nginx1.16+uwsgi2.0.18+Django2.0.4
上次在网上找了一个在阿里云Centos7.6中部署nginx1.16+uwsgi2.0.18+Django2.0.4的文档,可能是这个文档不是最新版的,安装的时候遇到了很多问题, 最后跟一个大神要了一 ...
阿里云Centos7.6中部署nginx1.16+uwsgi2.0.18+Django2.0.4
当你购买了阿里云的ecs,涉及ecs的有两个密码,一定要搞清楚,一个密码是远程链接密码,也就是通过浏览器连接服务器的密码,另外一个是实例密码,这个密码就是ecs的root密码,一般情况下,我们经常用到 ...
新手之首次部署阿里云centos7+mysql+asp.net mvc core应用之需要注意的地方
先来几个字,坑坑坑. 自己业余爱好者,签名一直捣鼓net+mssql,前阵买了阿里云esc,自己尝试做个博客,大体架子都打好了,本地安装了mysql,测试了也没问题. 部署到阿里云centos7,结果 ...
阿里云CentOS7部署ASP.NET Core
本文主要介绍了阿里云CentOS7下如何成功的发布ASP.Core应用并使用nginx进行代理, 并对所踩的坑加以记录; 环境.工具.准备工作服务器:阿里云64位CentOS 7.4.1708版本; ...
【Docker】使用Docker 在阿里云 Centos7 部署 MySQL 和 Redis （二）
系列目录: [Docker] CentOS7 安装 Docker 及其使用方法 ( 一 ) [Docker] 使用Docker 在阿里云 Centos7 部署 MySQL 和 Redis (二) [D ...
阿里云CentOS7部署MySql8.0
本文主要介绍了阿里云CentOS7如何安装MySql8.0,并对所踩的坑加以记录; 环境.工具.准备工作服务器:阿里云CentOS 7.4.1708版本; 客户端:Windows 10; SFTP客 ...
阿里云CentOS7.3服务器通过Docker安装Nginx
前言小编环境: 阿里云CentOS7.3服务器 docker 下面分享一次小编在自己的阿里云CentOS7.3服务器上使用Docker来安装Nginx的一次全过程温馨小提示: 如果只是希望单纯使用 ...
阿里云Centos7使用yum安装MySQL5.6的正确姿势
阿里云Centos7使用yum安装MySQL5.6 阿里云Centos7使用yum安装MySQL5.6 前言:由于某些不可抗力,我要在自己的阿里云服务器上搭建hadoop+hive+mysql+tom ...

随机推荐

原创工具14Finger-全能web指纹识别与分享平台
14Finger 功能齐全的Web指纹扫描和分享平台,基于vue3+django前后端分离的web架构,并集成了长亭出品的rad爬虫的功能,内置了一万多条互联网开源的指纹信息. Github:http ...
Spring Boot 2.7.0发布，2.5停止维护，节奏太快了吧
这几天是Spring版本日,很多Spring工件都发布了新版本, Spring Framework 6.0.0 发布了第 4 个里程碑版本,此版本包含所有针对 5.3.20 的修复补丁,以及特定于 6 ...
数据库与MySQL的下载使用
目录数据存储演变史数据库应用发展史数据库本质数据库分类关系型数据库非关系型数据库 SQL与NoSQL MySQL简介版本问题下载使用目录结构基本使用简单使用系统服务修改密码 ...
ethtools-网卡适配器管理
查看网卡适配器配置信息,并且我们可以通过它修改网卡适配器的双工模式. 1.安装Ethtools [root@localhost ~]# yum -y install ethtools 2.命令语法语 ...
《Mybatis 手撸专栏》第9章：细化XML语句构建器，完善静态SQL解析
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言你只是在解释过程,而他是在阐述高度! 如果不是长时间的沉淀.积累和储备,我一定也没有 ...
Primal_Dual 原始对偶
不是费用流都需要用 SPFA 吗. 众所周知,SPFA 去世了,然后网络流显然有负边.于是我们可以像 Johnson 全源最短路一样,给边加上势能,具体实现看我之前的博客啦. 然后对于每一次跑 D ...
人脸识别库 face_recognition
face_recognition Windows系统环境下安装默认环境:anaconda的python3.7版本,win10环境第一步:安装dlib 从网络上下载: http://dlib.net ...
一些基本的jar包
jackson与前端传送数据 <dependency> <groupId>com.fasterxml.jackson.core</groupId> <arti ...
C语言- 基础数据结构和算法 - 动态数组
听黑马程序员教程<基础数据结构和算法 (C版本)>,照着老师所讲抄的, 视频地址https://www.bilibili.com/video/BV1vE411f7Jh?p=1 喜欢的朋友可 ...
ExtJS 布局-HBox 布局（HBox layout）
更新记录: 2022年6月11日更新文章结构. 2022年6月8日发布. 2022年6月1日开始. 1.说明 hbox布局与column布局几乎相同,但hbox允许拉伸列的高度. 既可以在水平方 ...

在阿里云Centos7.6上面部署基于Redis的分布式爬虫Scrapy-Redis

在阿里云Centos7.6上面部署基于Redis的分布式爬虫Scrapy-Redis的更多相关文章

随机推荐

热门专题