Scrapy-redis组件，实现分布式爬虫

安装包

pip install -U scrapy-redis

settings.py

##### Scrapy-Redis  #####

### Scrapy指定Redis 配置  ###

# 其他默认配置在scrapy_redis.default.py中。

# 指定redis类对象，如果你的是redis集群就要改一下。

# REDIS_CLS = redis.RedisCluster

# 看了一下源码，发现要通过这种方式才能指定redis集群的各个IP

# 当然了，你只指定集群中任意一个HOST、PORT也行（这时候就只要REDIS_HOST和REDIS_PORT即可，这点你看看源码就知道了..），因为集群会自动找响应的主机。

# 定义redis集群的Node节点信息

# 注意不一定要全部集群的节点信息都放在这里，因为RedisCluster只要求集群中其中一个节点即可！

# REDIS_CLUSTER_NODES = [

#     {"host": "192.168.2.6", "port": 6379},

#     {"host": "192.168.2.6", "port": 6380},

#     {"host": "192.168.2.6", "port": 6381},

#     {"host": "192.168.2.6", "port": 6382},

#     {"host": "192.168.2.6", "port": 6383},

#     {"host": "192.168.2.6", "port": 6384},

# ]

# nodes = []

# for node in REDIS_CLUSTER_NODES:

#     nodes.append(ClusterNode(node["host"], node["port"]))

#

# REDIS_PARAMS = {

#     'startup_nodes': nodes,

# }

REDIS_HOST = "127.0.0.1"

REDIS_PORT = 6379

# REDIS_URL = "redis://127.0.0.1:6379"  # 用这种方式也行.

# REDIS_DECODE_RESPONSES = True

# REDIS_DB

# REDIS_ENCODING

# 启用Rides调度存储请求队列

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 不清除Redis队列、这样可以暂停/恢复 爬取

SCHEDULER_PERSIST = True

# 如果为True，则使用redis的'spop'进行操作。

# 如果需要避免起始网址列表出现重复，这个选项非常有用。开启此选项urls必须通过sadd添加，否则会出现类型错误。

REDIS_START_URLS_AS_SET = False

# 定义指纹去重过滤的类

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# scrapy-redis对于请求的处理的调度有各种队列，如先进先出，后进先出，优先级队列(默认)

# 使用优先级调度请求队列 ["scrapy_redis.queue.SpiderQueue" 此项是先入先出队列]

# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"

爬虫类：（一般只需要将继承类修改为Scrapy-redis提供的爬虫类即可）

import time

import scrapy

from scrapy.http import HtmlResponse

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from scrapy_redis.spiders import RedisCrawlSpider

from zolwallpaper.items import Bang123Item

from scrapy_redis.dupefilter import RFPDupeFilter

# 将继承的类修改为RedisCrawlSpider、或者RedisSpider（看你的业务需求）

# class Bang123Spider(CrawlSpider):

**class Bang123Spider(RedisCrawlSpider):**

    name = "bang123"

    allowed_domains = ["bang123.cn"]

    **# 使用scrapy-redis后就不需要指定start_urls，而是定义redis_key，在这个key里面将url地址push进去列表中，让多台机器tongshidu

    # start_urls = ["https://www.bang123.cn/"]**

    # 定义在redis启动的urls的key名，如果不设置，则默认为爬虫的名字+:start_urls，

    # 比如Bang123Spider爬虫类的这里的name="bang123"，那么也会组成bang123:start_urls，这些可以自己看源码。

    # redis_key = "bang123:start_urls"

    rules = (

        # 翻页

        Rule(LinkExtractor(allow=r"https://www.bang123.cn/index_\d+.html"), follow=True),

        # 详情页

        Rule(LinkExtractor(allow=r"https://www.bang123.cn/gongshi/\d+.html"), callback="parse_item", follow=False),

    )

    def parse_item(self, response: HtmlResponse):

        bang_item = Bang123Item()

        selector = response.xpath('//div[@class="article_content layui-field-box"]')[0]

        title = selector.xpath('./h1/text()').get()

        main = response.xpath('//div[@class="content tindent of_table"]/p').getall()

        bang_item["title"] = title

        bang_item["main"] = main

        print(f"【{title=}】")

        print(f"{main=}")

        print("-"*150)

        yield bang_item

启动爬虫：

scrapy crawl bang123

手动添加start_urls：

redis-cli>

# 这里key名字是你在爬虫类中定义的redis_key的值

redis-cli>lpush bang123:start_urls https://www.bang123.cn/

为什么需要手动添加呢？

1、因为我们这个是CrawlSpider，是根据Rule自动找链接的，所以我们需要先手动给他一个链接。

这个在官方文档也有写：https://github.com/rmax/scrapy-redis/wiki/Feeding-a-Spider-from-Redis

当然了，你也可以写两个爬虫，一个爬虫负责获取分页中每个项目的url，并发送到redis-key对应的start_urls中。

另外一个爬虫则负责爬取详情页，这种方法也可以。

Scrapy-redis组件，实现分布式爬虫的更多相关文章

基于scrapy-redis组件的分布式爬虫
scrapy-redis组件安装分布式实现流程 scrapy-redis组件安装 - 下载scrapy-redis组件:pip install scrapy-redis - 更改redis配置文件: ...
基于redis的简易分布式爬虫框架
代码地址如下:http://www.demodashi.com/demo/13338.html 开发环境 Python 3.6 Requests Redis 3.2.100 Pycharm(非必需,但 ...
Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合
简介:给正在学习的小伙伴们分享一下自己的感悟,如有理解不正确的地方,望指出,感谢~ 首先介绍一下这个标题吧~ 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待 ...
python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）
之前我们的爬虫都是单机爬取,也是单机维护REQUEST队列, 看一下单机的流程图: 一台主机控制一个队列,现在我要把它放在多机执行,会产生一个事情就是做重复的爬取,毫无意义,所以分布式爬虫的第一个难点 ...
Python 用Redis简单实现分布式爬虫
Redis通常被认为是一种持久化的存储器关键字-值型存储,可以用于几台机子之间的数据共享平台. 连接数据库注意:假设现有几台在同一局域网内的机器分别为Master和几个Slaver Master连接 ...
python3下scrapy爬虫(第十四卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之执行）
现在我们现在一个分机上引入一个SCRAPY的爬虫项目,要求数据存储在MONGODB中现在我们需要在SETTING.PY设置我们的爬虫文件再添加PIPELINE 注释掉的原因是爬虫执行完后,和本地存 ...
16 Scrapy之分布式爬虫
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
Python36 使用Redis 构建分布式爬虫（未完）
很长时间未更新了,人懒了. 最近有不少的东西,慢慢写吧,最近尝试了一下python 使用Redis 来构建分布式爬虫: 单体爬虫有很多缺点,但是在学习过程中能够学习爬虫的基本理念与运行模式,在后期构建 ...
基于scrapy-redis的分布式爬虫
一.介绍 1.原生的scrapy框架原生的scrapy框架是实现不了分布式的,其原因有: 1. 因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...
基于scrapy-redis分布式爬虫的部署
redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls ...

随机推荐

gitlab与LDAP 联调
gitlab整理目录 gitlab整理 1.安装Gitlab依赖包 2.下载,安装 3.配置,访问域名及邮箱 4.初始化,启动 5.访问,以及邮箱测试 5.1汉化 6.问题总结处理 6.1安装时出现 ...
HTML网页/KRPano项目一键打包EXE工具（HTML网页打包成单个windows可执行文件exe）
HTML一键打包EXE工具使用说明工具简介 HTML一键打包EXE工具(HTML封装EXE,桌件)能把任意HTML项目(网址)一键打包为单个EXE文件,可以脱离浏览器和服务器,直接双击即可运行.支持 ...
MySQL实战实战系列 01 基础架构：一条SQL查询语句是如何执行的？
这是专栏的第一篇文章,我想来跟你聊聊 MySQL 的基础架构.我们经常说,看一个事儿千万不要直接陷入细节里,你应该先鸟瞰其全貌,这样能够帮助你从高维度理解问题.同样,对于 MySQL 的学习也是这样. ...
iperf 工具使用总结
转载请注明出处: iperf是一个用于测量网络带宽的工具,可以通过客户端和服务器之间的数据传输来评估网络性能.下面详细介绍iperf的使用方法.常用命令和参数以及注意事项,并提供一些示例说明.在ipe ...
jdk8环境变量
JAVA_HOME C:\Program Files\Java\jdk1.8.0_333 Path%JAVA_HOME%\bin%JAVA_HOME%\jre\bin CLASSPATH.%JAVA_ ...
关于tiptop gp5.2采购模块，价格变更的随笔
采购价格变更要看具体环节,你可以把他当作是三张表,采购价格表.收货价格表.入库价格表,这些还好处理,如果已抛砖到财务端生成账款再要求改价格就更复杂,会产生更多张表了,改起来也就更复杂. 用apmt91 ...
Chapter 57. Multi-project Builds
http://www.gradle.org/docs/current/userguide/multi_project_builds.html#sec:decoupled_projects The po ...
查漏补缺，这些热门开源项目你都知道么？「GitHub 热点速览」
本期热点速览的周榜部分的项目,基本上每周都会在 GitHub Trending 见到它们的身影,因为它们实在太火了.一般来说,这些火爆的项目大家都耳熟能详,但是为了防止有些小伙伴不怎么逛 GitHub ...
[ABC204E] Rush Hour 2 题解
Rush Hour 2 题目大意给定一张无向图,边带两个参数 \(c_i,d_i\),在 \(t\) 时间时经过第 \(i\) 条边所需的时间是 \(c_i+\lfloor\frac{d_i}{t+ ...
javascript 如何开启调试功能
目录 javascript 如何开启调试功能方式一: 打开浏览器,点击源码,直接点击一个,就加上断点了 (基于浏览器) 方式二: 打开代码,在 js 中加入 debugger 关键字,就加上断点了( ...

Scrapy-redis组件，实现分布式爬虫

Scrapy-redis组件，实现分布式爬虫的更多相关文章

随机推荐

热门专题