爬虫---scrapy分布式和增量式

分布式

概念: 需要搭建一个分布式的机群, 然后在每一台电脑中执行同一组程序, 让其对某一网站的数据进行联合分布爬取.
原生的scrapy框架不能实现分布式的原因
- 调度器不能被共享,
- 管道也不能被共享.
scrapy + scrapy-redis 可以实现分布式
scrapy-redis组件的作用:
- 可以提供可被共享的调度器和管道
- 特性: 数据只可以存储到redis数据库中
分布式的实现流程:
1. 安装组件pip install scrapy-redis
2. 创建scrapy工程
3. cd 工程目录中
4. 创建爬虫文件: 基于Spider的爬虫或者基于CrawlSpider的爬虫
5. 修改爬虫类:
  1. 导包 from scrapy_redis.spiders import RedisCrawlSpider
  2. 修改当前爬虫类的父类为 RedisCrawlSpider
  3. allowed_domains和start_urls删除
  4. 添加一个新属性: redis_key = 'fbsQueue', 表示的是可以被共享的调度器队列名称
  5. 编写爬虫类的常规操作
6. settings配置文件的配置
  1. UA伪装
  2. Robots协议
  3. 指定管道:
```
ITEM_PIPELINES = {

    'scrapy_redis.pipelines.RedisPipeline': 400

}
```
  1. 指定调度器
```
# 增加一个去重容器类的配置, 作用是使用redis的set集合来存储请求的指纹数据, 实现请求去重的持久化

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用scrapy-redis组件自己的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 配置调度器是否要持久化, 即当爬虫结束时, 要不要清空redis中请求队列和去重指纹的set.

# 如果是True, 表示要持久化存储, 就不会清空数据, 否则清空数据

SCHEDULER_PERSIST = True
```
  1. 指定数据库
```
REDIS_HOST = 'redis服务器的ip地址'

REDIS_PORT = 6379
```
7. redis的配置文件进行配置 redis.windows.conf
  1. 关闭默认绑定: 56行注释: bind 127.0.0.1
  2. 关闭保护模式: 75行: protected=mode no
  3. 启动redis的服务端和客户端
```
redis-server.exe redis.windows.conf

redis-cli
```
8. 启动程度 scrapy runspider xxx.py
9. 向调度器的队列中仍入一个起始的url:
  1. 队列是存在于redis中
  2. 开启redis的客户端: lpush fbsQueue https://movie.douban.com/top250?start=0&filter=

增量式

概念: 用于监测网站数据更新的情况
核心机制: 去重, 可以使用redis的set实现去重

爬虫---scrapy分布式和增量式的更多相关文章

爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
基于Scrapy框架的增量式爬虫
概述概念:监测核心技术:去重基于 redis 的一个去重适合使用增量式的网站: 基于深度爬取的对爬取过的页面url进行一个记录(记录表) 基于非深度爬取的记录表:爬取过的数据对应的数据指纹 ...
爬虫Ⅱ:scrapy框架
爬虫Ⅱ:scrapy框架 step5: Scrapy框架初识 Scrapy框架的使用 pySpider 什么是框架: 就是一个具有很强通用性且集成了很多功能的项目模板(可以被应用在各种需求中) scr ...
爬虫 crawlSpider 分布式增量式提高效率
crawlSpider 作用:为了方便提取页面整个链接url,不必使用创参寻找url,通过拉链提取器,将start_urls的全部符合规则的URL地址全部取出使用:创建文件scrapy startp ...
python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制
CrawlSpider实现的全站数据的爬取新建一个工程 cd 工程创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...
Scrapy 增量式爬虫
Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/ar ...
Scrapy分布式爬虫，分布式队列和布隆过滤器，一分钟搞定？
使用Scrapy开发一个分布式爬虫?你知道最快的方法是什么吗?一分钟真的能开发好或者修改出一个分布式爬虫吗? 话不多说,先让我们看看怎么实践,再详细聊聊细节~ 快速上手 Step 0: 首先安装 ...
Python爬虫从入门到放弃（二十）之 Scrapy分布式原理
关于Scrapy工作流程回顾 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享爬取队列. 分布式架 ...
scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...

随机推荐

无法加载文件 **.ps1，系统中禁止执行脚本
控制台执行命令后出现无法加载文件 ******.ps1,因为在此系统中禁止执行脚本.有关详细信息,请参阅 "get-help about_signing" 在控制台执行命令: s ...
MYSQL数年库安装
MySQL系列 MySQL 的三大主要分支mysqlmariadbpercona Server MySQL系列2.2.2.1 MySQL 的三大主要分支mysqlmariadbpercona Serv ...
SQLMAP-Tamper之较为通用的双写绕过
前言 21年省决赛的SQLITE注入就是用的双写绕过,当时是手搓代码打的,这几天想起来了,寻思着写个tamper试试. 一开始以为很简单,后来才发现有很多要注意的点,折磨了挺久. 等弄完才明白为什么s ...
Kubernetes：Ingress总结(一)
Blog:博客园个人参考:Ingress | Kubernetes.<Kubernetes进阶实战>.<Kubernetes网络权威指南 > 何谓Ingress?从字面意思 ...
JSON.parse()和JSON.stringfy()区别
JSON.parse() 用于从一个json格式字符串解析出json类型的数据,如: 注意事项:json格式字符串必须是写在一排的,且括号外面用单引号,里面的每一个字符串用双引号 JSON.strin ...
OpenCV使用级联分类器实现人脸检测
一.概述案例:使用opencv级联分类器CascadeClassifier+其提供的特征数据实现人脸检测,检测到人脸后使用红框画出来. API介绍:detectMultiScale( InputAr ...
七天接手react项目系列 —— react 路由
其他章节请看: 七天接手react项目系列 react 路由本篇首先讲解路由原理,接着以一个基础路由示例为起点讲述路由最基础的知识,然后讲解嵌套路由.路由传参,最后讲解路由组件和一般组件的区别,以 ...
学习廖雪峰的Git教程2--远程仓库
今天跳过之前版本管理,先来学习远程仓库内容: 1.创建ssh(这是为没有ssh key准备的,如果有就可以进行下一步: 敲入 $ ssh-keygen -t rsa -C "youremai ...
python3 爬虫3--异常处理
本文学习内容来自:https://germey.gitbooks.io/python3webspider/content/ urllib库中有URLError类,request模块产生的错误都可以通过 ...
生产环境频繁内存溢出，原来就是因为这个“String类”
摘要:如果在程序中创建了比较大的对象,并且我们基于这个大对象生成了一些其他的信息,此时,一定要释放和这个大对象的引用关系,否则,就会埋下内存溢出的隐患. 本文分享自华为云社区<[高并发]你敢信? ...

爬虫---scrapy分布式和增量式

分布式

增量式

爬虫---scrapy分布式和增量式的更多相关文章

随机推荐

热门专题