安装包

pip install -U scrapy-redis

settings.py

##### Scrapy-Redis  #####
### Scrapy指定Redis 配置 ###
# 其他默认配置在scrapy_redis.default.py中。
# 指定redis类对象,如果你的是redis集群就要改一下。
# REDIS_CLS = redis.RedisCluster # 看了一下源码,发现要通过这种方式才能指定redis集群的各个IP
# 当然了,你只指定集群中任意一个HOST、PORT也行(这时候就只要REDIS_HOST和REDIS_PORT即可,这点你看看源码就知道了..),因为集群会自动找响应的主机。 # 定义redis集群的Node节点信息
# 注意不一定要全部集群的节点信息都放在这里,因为RedisCluster只要求集群中其中一个节点即可!
# REDIS_CLUSTER_NODES = [
# {"host": "192.168.2.6", "port": 6379},
# {"host": "192.168.2.6", "port": 6380},
# {"host": "192.168.2.6", "port": 6381},
# {"host": "192.168.2.6", "port": 6382},
# {"host": "192.168.2.6", "port": 6383},
# {"host": "192.168.2.6", "port": 6384},
# ]
# nodes = []
# for node in REDIS_CLUSTER_NODES:
# nodes.append(ClusterNode(node["host"], node["port"]))
#
# REDIS_PARAMS = {
# 'startup_nodes': nodes,
# }
REDIS_HOST = "127.0.0.1"
REDIS_PORT = 6379
# REDIS_URL = "redis://127.0.0.1:6379" # 用这种方式也行.
# REDIS_DECODE_RESPONSES = True
# REDIS_DB
# REDIS_ENCODING # 启用Rides调度存储请求队列
SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 不清除Redis队列、这样可以暂停/恢复 爬取
SCHEDULER_PERSIST = True # 如果为True,则使用redis的'spop'进行操作。
# 如果需要避免起始网址列表出现重复,这个选项非常有用。开启此选项urls必须通过sadd添加,否则会出现类型错误。
REDIS_START_URLS_AS_SET = False # 定义指纹去重过滤的类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # scrapy-redis对于请求的处理的调度有各种队列,如先进先出,后进先出,优先级队列(默认)
# 使用优先级调度请求队列 ["scrapy_redis.queue.SpiderQueue" 此项是先入先出队列]
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"

爬虫类:(一般只需要将继承类修改为Scrapy-redis提供的爬虫类即可)

import time

import scrapy
from scrapy.http import HtmlResponse
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy_redis.spiders import RedisCrawlSpider from zolwallpaper.items import Bang123Item
from scrapy_redis.dupefilter import RFPDupeFilter # 将继承的类修改为RedisCrawlSpider、或者RedisSpider(看你的业务需求)
# class Bang123Spider(CrawlSpider):
**class Bang123Spider(RedisCrawlSpider):**
name = "bang123"
allowed_domains = ["bang123.cn"]
**# 使用scrapy-redis后就不需要指定start_urls,而是定义redis_key,在这个key里面将url地址push进去列表中,让多台机器tongshidu
# start_urls = ["https://www.bang123.cn/"]** # 定义在redis启动的urls的key名,如果不设置,则默认为爬虫的名字+:start_urls,
# 比如Bang123Spider爬虫类的这里的name="bang123",那么也会组成bang123:start_urls,这些可以自己看源码。
# redis_key = "bang123:start_urls" rules = (
# 翻页
Rule(LinkExtractor(allow=r"https://www.bang123.cn/index_\d+.html"), follow=True),
# 详情页
Rule(LinkExtractor(allow=r"https://www.bang123.cn/gongshi/\d+.html"), callback="parse_item", follow=False),
) def parse_item(self, response: HtmlResponse): bang_item = Bang123Item() selector = response.xpath('//div[@class="article_content layui-field-box"]')[0]
title = selector.xpath('./h1/text()').get() main = response.xpath('//div[@class="content tindent of_table"]/p').getall() bang_item["title"] = title
bang_item["main"] = main print(f"【{title=}】")
print(f"{main=}")
print("-"*150) yield bang_item

启动爬虫:

scrapy crawl bang123

手动添加start_urls:

redis-cli>
# 这里key名字是你在爬虫类中定义的redis_key的值
redis-cli>lpush bang123:start_urls https://www.bang123.cn/

为什么需要手动添加呢?

1、因为我们这个是CrawlSpider,是根据Rule自动找链接的,所以我们需要先手动给他一个链接。

这个在官方文档也有写:https://github.com/rmax/scrapy-redis/wiki/Feeding-a-Spider-from-Redis

当然了,你也可以写两个爬虫,一个爬虫负责获取分页中每个项目的url,并发送到redis-key对应的start_urls中。
另外一个爬虫则负责爬取详情页,这种方法也可以。

Scrapy-redis组件,实现分布式爬虫的更多相关文章

  1. 基于scrapy-redis组件的分布式爬虫

    scrapy-redis组件安装 分布式实现流程 scrapy-redis组件安装 - 下载scrapy-redis组件:pip install scrapy-redis - 更改redis配置文件: ...

  2. 基于redis的简易分布式爬虫框架

    代码地址如下:http://www.demodashi.com/demo/13338.html 开发环境 Python 3.6 Requests Redis 3.2.100 Pycharm(非必需,但 ...

  3. Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合

    简介:给正在学习的小伙伴们分享一下自己的感悟,如有理解不正确的地方,望指出,感谢~ 首先介绍一下这个标题吧~ 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待 ...

  4. python3下scrapy爬虫(第十三卷:scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置)

    之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点 ...

  5. Python 用Redis简单实现分布式爬虫

    Redis通常被认为是一种持久化的存储器关键字-值型存储,可以用于几台机子之间的数据共享平台. 连接数据库 注意:假设现有几台在同一局域网内的机器分别为Master和几个Slaver Master连接 ...

  6. python3下scrapy爬虫(第十四卷:scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行)

    现在我们现在一个分机上引入一个SCRAPY的爬虫项目,要求数据存储在MONGODB中 现在我们需要在SETTING.PY设置我们的爬虫文件 再添加PIPELINE 注释掉的原因是爬虫执行完后,和本地存 ...

  7. 16 Scrapy之分布式爬虫

    redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...

  8. Python36 使用Redis 构建分布式爬虫(未完)

    很长时间未更新了,人懒了. 最近有不少的东西,慢慢写吧,最近尝试了一下python 使用Redis 来构建分布式爬虫: 单体爬虫有很多缺点,但是在学习过程中能够学习爬虫的基本理念与运行模式,在后期构建 ...

  9. 基于scrapy-redis的分布式爬虫

    一.介绍 1.原生的scrapy框架 原生的scrapy框架是实现不了分布式的,其原因有: 1. 因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...

  10. 基于scrapy-redis分布式爬虫的部署

    redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...

随机推荐

  1. 面霸的自我修养:volatile专题

    王有志,一个分享硬核Java技术的互金摸鱼侠 加入Java人的提桶跑路群:共同富裕的Java人 今天是<面霸的自我修养>第4篇文章,我们一起来看看面试中会问到哪些关于volatile的问题 ...

  2. 为何 Linus 一个人就能写出这么强的系统,中国却做不出来?

    前言 知乎上有一个提问:为何 Linus 一个人就能写出这么强的系统,中国却做不出来? ↓↓↓ 今天,我们就这个话题,一起来做个讨论. 不知道大家是怎么看这个问题的?是美国人更聪明吗,所以才能写出这么 ...

  3. iOS越狱后必装软件

    iOS越狱后就跟ubuntu没两样了,很多ubuntu下常用的软件都要装一下 openssh 这个软件可以让我们能够登录iphone Apt-get 用这个软件可以安装很多软件,主要是一些工具调试类软 ...

  4. 一文解锁vue3中hooks的使用姿势

    vue3 中的 hooks 是什么? 简单来说如果你的函数中用到了诸如 ref,reactive,onMounted 等 vue 提供的 api 的话,那么它就是一个 hooks 函数,如果没用到它就 ...

  5. 7-MySQL函数

    1.分组group by 在MySQL中,GROUP BY的意思是"分组查询",它可以根据一个或多个字段对查询结果进行分组. GROUP BY的作用是通过一定的规则将一个数据集划分 ...

  6. Solution Set -「ABC 196」

    「ABC 196A」Difference Max Link. 略. #include<cstdio> long long a,b,c,d; int main(){ scanf(" ...

  7. LDA主题模型讲解及代码Python实现

    目录 1. LDA主题模型详解 1.1 Beta/Dirichlet 分布的一个性质 1.2 LDA-math-MCMC 1.2.1 重要理解 1.3 Gibbs Sampling 2. 所需工具库 ...

  8. ApiPost发送请求报错UT000036: Connection terminated parsing multipart data

    发送请求报错Caused by: java.io.IOException: UT000036: Connection terminated parsing multipart data 这个报错是因为 ...

  9. [ABC205E] White and Black Balls 题解

    White and Black Balls 题目大意 将 \(n\) 个白球,\(m\) 个黑球排成一列,要求满足 \(\forall i\in[1,n+m],w_i\le b_i+k\),问存在多少 ...

  10. P7072 [CSP-J2020] 直播获奖

    Problem 考查知识点:桶优化. 题目简述 竞赛的获奖率为 \(w\%\),即当前排名前 \(w\%\) 的选手的最低成绩就是即时的分数线. 若当前已评出了 \(p\) 个选手的成绩,则当前计划获 ...