Day21 21.2：CrawlSpider-redis分布式爬虫

CrawlSpider-redis分布式

分布式在日常开发中并不常用，只是一个噱头！
概念：
- 可以使用多台电脑搭建一个分布式机群，使得多台对电脑可以对同一个网站的数据进行联合且分布的数据爬取。
声明：
- 原生的scrapy框架并无法实现分布式操作！why？
  - 多台电脑之间无法共享同一个调度器
  - 多台电脑之间无法共享同一个管道
如何是的scrapy可以实现分布式呢？
- 借助于一个组件：scrapy-redis
- scrapy-redis的作用是什么？
  - 可以给原生的scrapy框架提供可被共享的调度器和管道！
  - 环境安装：pip install scrapy-redis
    - 注意：scrapy-redis该组件只可以将爬取到的数据存储到redis数据库
编码流程（重点）：
- 1.创建项目
- 2.cd 项目
- 3.创建基于crawlSpider的爬虫文件
  - 3.1 修改爬虫文件
    - 导包：from scrapy_redis.spiders import RedisCrawlSpider
    - 修改当前爬虫类的父类为 RedisCrawlSpider
    - ```
    class FbsSpider(RedisCrawlSpider):
```
- 将start_urls替换成redis_key的操作
  - redis_key变量的赋值为字符串，该字符串表示调度器队列的名称
  - # start_urls = ["http://www.xxx.com/"] #redis_key的赋值为字符串，该字符串表示调度器队列的名称 redis_key = '队列名称'
- 进行常规的请求操作和数据解析
- 4.settings配置文件的修改
  - 常规内容修改（robots和ua等），先不指定日志等级
  - ```
  USER_AGENT : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
  
  # Obey robots.txt rules
  
  ROBOTSTXT_OBEY = False
```
- 指定可以被共享的管道类
  - ```
  ITEM_PIPELINES = {
  
      'scrapy_redis.pipelines.RedisPipeline': 400
  
  }
```
  - 指定可以被共享的调度器
    - ```
    # 使用scrapy-redis组件的去重队列
    
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    
    # 使用scrapy-redis组件自己的调度器
    
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    
    # 是否允许暂停
    
    SCHEDULER_PERSIST = True
```
- 指定数据库
  - ```
  REDIS_HOST = '127.0.0.1'
  
  REDIS_PORT = 6379
```
- 5.修改redis数据库的配置文件--redis数据库文件目录（redis.windows.conf）
  - 在配置文件中改行代码是没有被注释的：
    - ```
    bind 127.0.0.1
    
    #将上述代码注释即可（解除本机绑定，实现外部设备访问本机数据库
    
    如果配置文件中还存在：protected-mode = true，将true修改为false，
    
    修改为false后表示redis数据库关闭了保护模式，表示其他设备可以远程访问且修改你数据库中的数据
```
- 6.启动redis数据库的服务端和客户端
  - CMD运行：redis-server和redis-cli
- 7.运行项目,发现程序暂定一直在等待，等待爬取任务
- 8.需要向可以被共享的调度器的队列（redis_key的值）中放入一个起始的url
  - 在redis数据库的客户端执行如下操作：
    - CMD:lpush 队列名称起始的url
    - 起始url：https://wz.sun0769.com/political/index/politicsNewest?id=1&page=1

Day21 21.2：CrawlSpider-redis分布式爬虫的更多相关文章

【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
第三百六十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询
第三百六十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询 1.elasticsearch(搜索引擎)的查询 elasticsearch是功能 ...
四十四 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本查询
1.elasticsearch(搜索引擎)的查询 elasticsearch是功能非常强大的搜索引擎,使用它的目的就是为了快速的查询到需要的数据查询分类: 基本查询:使用elasticsearch内 ...
Scrapy+redis实现分布式爬虫
概述什么是分布式爬虫需要搭建一个由n台电脑组成的机群,然后在每一台电脑中执行同一组程序,让其对同一网络资源进行联合且分布的数据爬取. 原生Scrapy无法实现分布式的原因原生Scrapy中调度器 ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
Python36 使用Redis 构建分布式爬虫（未完）
很长时间未更新了,人懒了. 最近有不少的东西,慢慢写吧,最近尝试了一下python 使用Redis 来构建分布式爬虫: 单体爬虫有很多缺点,但是在学习过程中能够学习爬虫的基本理念与运行模式,在后期构建 ...
基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
Golang分布式爬虫：抓取煎蛋文章|Redis/Mysql|56,961 篇文章
--- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...

随机推荐

在docker容器外，使用docker容器中的环境
docker exec -it 334529194f22 /bin/bash -c 'pip install requests-2.22.0-py2.py3-none-any.whl' 其中33452 ...
已拦截跨源请求：同源策略禁止读取位于 http://192.168.2.104:8080/sockjs-node/info?t=1615356410656 的远程资源。（原因：CORS 请求未能成功）
本人用的是火狐浏览器是由于版本过低导致的被拦截,更新火狐为最新版本即可
ecplise项目启动出现permgen space异常内存不够
1. java.lang.OutOfMemoryError: PermGen space PermGen space的全称是Permanent Generation space,是指内存的永久保存区域 ...
Springboot多数据源使用示例
1.配置文件 spring.datasource.url=jdbc:mysql://198.168.1.1:3306/user?useUnicode=true&characterEncodin ...
实验一-密码引擎-加密API实现与测试
实验一-密码引擎-加密API实现与测试 1 下载并查找GMT 0018-2012密码设备应用接口规范原始文档进行学习 (5分) 2 实现GMT 0018-2012密码设备应用接口规范的接口函数,至少实 ...
微信小程序隐私指引完整填写范本（开发者收集你选中的照片或视频信息，用于？）
为了分辨用户,开发者将在获取你的明示同意后,收集你的微信昵称.头像.为了显示距离,开发者将在获取你的明示同意后,收集你的位置信息.开发者收集你的地址,用于获取位置信息.开发者收集你的发票信息,用于维护 ...
[Notes-DS-1]时间复杂度的几个概念和计算方法
..加点字才算原创?
jsp 格式化日期
第一步,引入工具包: <%@ taglib prefix="fmt" uri="http://java.sun.com/jsp/jstl/fmt" %&g ...
python生成一个WAV文件的正弦波
import numpy as np import matplotlib.pyplot as plt T = 1.0 / sample_rate #周期 x = np.arange(0, 1.0, T ...
<input> oninput事件
该事件在 <input> 或 <textarea> 元素的值发生改变时触发.onkeyup事件:在iphone(ios)中文输入会触发不到

Day21 21.2：CrawlSpider-redis分布式爬虫

CrawlSpider-redis分布式

Day21 21.2：CrawlSpider-redis分布式爬虫的更多相关文章

随机推荐

热门专题