Scrapy_redis

简介

scrapy_redis是一个基于Redis的Scrapy组件，用于scrapy项目的分布式部署和开发

你可以启动多个spider对象，互相之间共享有一个redis的request队列，最适合多个域名的广泛内容的爬取

特点

分布式爬取

分布式数据处理

爬取到的item数据被推送到redis中，这意味着你可以启动尽可能多的item处理程序

scrapy即插即用

scrapy调度程序+过滤器，项目管道，base spidre

安装

pip install scrapy-redis

使用

首先创建scrapy的项目

在settings修改默认的调度器和过滤

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

SCHEDULER_PERSIST = True

在spider里面修改继承的类RedisSpider，属性redis_key

常用设置

# 启用调度将请求存储进redis　　　　　　　　　　　　SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 确保所有spider通过redis共享相同的重复过滤　　　　DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 不清理redis队列，允许暂停/恢复抓取　　　　　　　　SCHEDULER_PERSIST = True

# 指定连接到Redis时要使用的主机和端口　　　　　　　REDIS_HOST = 'localhost'

　　　　　　　　　　　　　　　　　　　　　　　　　 REDIS_PORT = 6379

redis中存储的数据

spidername:items　　　　　　　　　　list类型，保存爬虫获取到的数据item内容是json字符串

spidername:dupefilter　　　　　　　　set类型，用于爬虫访问的URL去重，内容是40个字符的url的hash字符串

spidername:start_urls　　　　　　　　list类型，用于接收redisspider启动时的第一个url

spidername:requests　　　　　　　　zset类型，用于存放requests等待调度。内容是requests对象的序列化字符串

Scrapy_redis的更多相关文章

scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...
scrapy分布式爬虫scrapy_redis一篇
分布式爬虫原理首先我们来看一下scrapy的单机架构: 可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页 ...
scrapy_redis 相关: 多线程更新 score/request.priority
0.背景使用 scrapy_redis 爬虫, 忘记或错误设置 request.priority(Rule 也可以通过参数 process_request 设置 request.priority), ...
scrapy_redis 相关: 查看保存的数据
0.参考资料 https://redis.io/topics/data-types-intro An introduction to Redis data types and abstractions ...
scrapy_redis实现爬虫
1.scrapy_redis的流程在scrapy_redis中,所有的带抓取的对象和去重的指纹都存在所有的服务器公用的redis中所有的服务器公用一个redis中的request对象所有的req ...
scrapy_redis项目配置
一.创建普通scrapy项目二.spiders爬虫文件中修改项 import scrapy from XX.items import XXItem import json # ----1 导入类 f ...
scrapy和scrapy_redis入门
Scarp框架需求获取网页的url 下载网页内容(Downloader下载器) 定位元素位置, 获取特定的信息(Spiders 蜘蛛) 存储信息(ItemPipeline, 一条一条从管里走) 队 ...
定制起始url(scrapy_redis)
爬虫:(在这里不用配置start_url,直接可以取redis里面取start_url,可以多个) from scrapy_redis.spiders import RedisSpider # cla ...
[置顶]使用scrapy_redis，自动实时增量更新东方头条网全站新闻
存储使用mysql,增量更新东方头条全站新闻的标题新闻简介发布时间新闻的每一页的内容以及新闻内的所有图片.项目文件结构. 这是run.py的内容 1 #coding=utf-8 2 from ...
使用scrapy_redis，实时增量更新东方头条网全站新闻
存储使用mysql,增量更新东方头条全站新闻的标题新闻简介发布时间新闻的每一页的内容以及新闻内的所有图片.东方头条网没有反爬虫,新闻除了首页,其余板块的都是请求一个js.抓包就可以看到. 项目 ...

随机推荐

python3内置函数回忆
1.数学运算类 # 1.数学运算类 # abs:计算绝对值 print(abs(-23)) # divmod,返回一个tuple,第一个值为商,第二个值为余数 print(divmod(10,4)) ...
Mysql - 高可用方案之MMM(二)
一.概述上一篇博客中(https://www.cnblogs.com/ddzj01/p/11535796.html)介绍了如何搭建MMM架构,本文将通过实验介绍MMM架构的优缺点. 二.优点 1. ...
tomcat的jsp页面超过65535，导致500报错
错误信息 org.apache.jasper.JasperException: Unable to compile class for JSP: An error occurred at line: ...
极客时间-vue开发实战学习（ant-design vue作者）
vue基础属性事件插槽指令(Directives) 生命周期底层原理 vue生态路由管理器vue Router 状态管理器vuex 同构Nuxt vue实战实战项目-ant-desing ...
RabbitMQ 在.Net 中的使用
RabbitMQHelper public static class RabbitMQHelper { // 定义 RabbitMQ 基本参数 private static string HostNa ...
如何使用python远程操作linux
在云服务测试中,往往需要我们进入云服务内容进行相关内容的测试.这测试可以使用平台自身的noVNC.外部辅助xshell等工具连接到云服务内部进行测试.但是在如此反复的测试操作中,就需要用到自动化测试方 ...
通过 Telegraf + InfluxDB + Grafana 快速搭建监控体系的详细步骤
第一部分 Telegraf 部署和配置 Telegraf 是实现数据采集的工具.Telegraf 具有内存占用小的特点,通过插件系统开发人员可轻松添加支持其他服务的扩展. 在平台监控系统中,可以使 ...
subprocess之check_out用法
在python3中使用subprocess的check_out方法时,因为该输出为byte类型,所以如果要查看具体的内容时需要进行转码,如果转码不对话,会影响内容输出的可读性,如下: #1,输出解码不 ...
微信 PC HOOK
一.概述 Web端有开源代码,但新用户登录不了 PC端也有开源代码,新老用户都能登录市场上已有的产品:发卡机器人.多群转发机器人.营销管理机器人基本的功能:收发消息,加人加群,收账抢红包二.原理 ...
14. Go 语言编译与工具
Go 语言编译与工具 Go 语言的工具链非常丰富,从获取源码.编译.文档.测试.性能分析,到源码格式化.源码提示.重构工具等应有尽有. 在 Go 语言中可以使用测试框架编写单元测试,使用统一的命令行即 ...

Scrapy_redis

Scrapy_redis的更多相关文章

随机推荐

热门专题