分布式爬虫scrapy-redis

第一步下载scrapy模块:

　　pip install scrapy-redis

第二步创建项目

　　在终端/cmd进入创建项目的目录:　

cd  路径:

scrapy startproject douban(项目名)

　　导入到pycharm中

第三步创建爬虫类

　　1.在terminal中进入项目中的spiders目录:

　　输入scrapy genspider douban_spider movie.douban.com(爬虫,爬取域的范围)

第四步设置

　　非分布式爬虫设置:

　　1.将ROBOTSTXT_OBEY = True 改为 False

　　2.打开管道:

ITEM_PIPELINES = {

   'JD_redis.pipelines.JdRedisPipeline': 300,

    'scrapy_redis.pipelines.RedisPipeline': 400,  # 分布式爬虫中添加

}

 　　3.打开该设置并修改:

DEFAULT_REQUEST_HEADERS = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"

}

　　4 .添加下面设置

# 使用去scrapy-redis里的重组件，不使用scrapy默认的去重方式

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用scrapy-redis里的调度器组件，不使用默认的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 允许暂停，redis请求记录不丢失

SCHEDULER_PERSIST = True

# 默认的scrapy-redis请求队列形式（按优先级）

SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

#指定redis数据库的连接参数

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

第五步编写项目(在原来的非分布式爬虫项目中修改)

　　1.修改spider文件:

原来的文件是:

import scrapy

from JD.items import JdItem

class BookSpider(scrapy.Spider):

    name = 'book'

    # allowed_domains = ['jd.com','p.3.cn']

    start_urls = ['https://book.jd.com/booksort.html']

修改为:

import scrapy

from scrapy_redis.spiders import RedisSpider

from JD.items import JdItem

class BookSpider(scrapy.Spider):

    name = 'book'

    allowed_domains = ['jd.com','p.3.cn']

    # start_urls = ['https://book.jd.com/booksort.html']

　　redis_key = 'book:start_urls'  # book可以自己随意取

只修改了两个地方，一个是继承类：由scrapy.Spider修改为RedisSpider

然后start_url已经不需要了，修改为：redis_key = "xxxxx"，其中，这个键的值暂时是自己取的名字，

一般用项目名：start_urls来代替初始爬取的url。由于分布式scrapy-redis中每个请求都是从redis中取出来的，因此，在redis数据库中，设置一个redis_key的值，作为初始的url，scrapy就会自动在redis中取出redis_key的值，作为初始url，实现自动爬取.

　　2.运行:

　　　　在命令中输入: scrapy runspider douban_spider.py(爬虫文件名)

　　3来到redirs客户端中,输入初始url　　　

lpush books:start_urls https://book.jd.com/booksort.html

分布式爬虫scrapy-redis的更多相关文章

爬虫--scrapy+redis分布式爬取58同城北京全站租房数据
作业需求: 1.基于Spider或者CrawlSpider进行租房信息的爬取 2.本机搭建分布式环境对租房信息进行爬取 3.搭建多台机器的分布式环境,多台机器同时进行租房数据爬取建议:用Pychar ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫
原理:其实就是用到redis的优点及特性,好处自己查--- 1,scrapy 分布式爬虫配置: settings.py BOT_NAME = 'first' SPIDER_MODULES = ['fi ...
基于Python,scrapy,redis的分布式爬虫实现框架
原文 http://www.xgezhang.com/python_scrapy_redis_crawler.html 爬虫技术,无论是在学术领域,还是在工程领域,都扮演者非常重要的角色.相比于其他 ...
Scrapy+redis实现分布式爬虫
概述什么是分布式爬虫需要搭建一个由n台电脑组成的机群,然后在每一台电脑中执行同一组程序,让其对同一网络资源进行联合且分布的数据爬取. 原生Scrapy无法实现分布式的原因原生Scrapy中调度器 ...
Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...
scrapy分布式爬虫scrapy_redis一篇
分布式爬虫原理首先我们来看一下scrapy的单机架构: 可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页 ...
Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合
简介:给正在学习的小伙伴们分享一下自己的感悟,如有理解不正确的地方,望指出,感谢~ 首先介绍一下这个标题吧~ 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待 ...

随机推荐

2020年，MyBatis常见面试题总结
Mybatis 技术内幕系列博客,从原理和源码角度,介绍了其内部实现细节,无论是写的好与不好,我确实是用心写了,由于并不是介绍如何使用 Mybatis 的文章,所以,一些参数使用细节略掉了,我们的目标 ...
MySql5.7.28下载、安装、登陆详解
进入MySql官网下载,页面如下根据自己需求,选择适合自己的进行下载然后解压安装包到自己的喜欢的路径配置环境变量添加环境系统变量 MYSQL_HOME:D:\Program Files\mys ...
sql05
1.Ado.net Ado.net是一组由微软提供的使用C#操作数据库的类库 2.连接首先引入: using System.Data.SqlClient; 需要使用连接字符串进行连接 using S ...
vue+element tree(树形控件)组件(1)
最近做了第一个组内可以使用的组件,虽然是最简版,也废了不少力.各位前辈帮我解决问题,才勉强搞定.让我来记录这个树形组件的编写过程和期间用到的知识点. 首先说说需求,就是点击出现弹窗+蒙板,弹窗内容是一 ...
自定义checkbox， radio样式总结
任务目的深入了解html label标签了解CSS边框.背景.伪元素.伪类(注意和伪元素区分)等属性的设置了解CSS中常见的雪碧图,并能自己制作使用雪碧图任务描述参考样例(点击查看),实现 ...
修复Nginx的WebDAV功能
如果想使用WebDAV来实现文件共享,尤其是想使用操作系统内置功能来挂载文件系统的话,省心的话还是用Apache吧. 下文介绍如何用Nginx来实现这个目标.Windows内置的客户端是Microso ...
idea创建简单web项目分析Servlet的请求转发与重定向的区别
注:如需转载,请附上原文链接,如有建议或意见,欢迎批评指正! 需求说明: // index.jsp页面 1 <% 2 String basePath = request.getScheme() ...
form里面文件上传并预览
其实form里面是不能嵌套form的,如果form里面有图片上传和其他input框,我们希望上传图片并预览图片,然后将其他input框填写完毕,再提交整个表单的话,有两种方式! 方式一:点击上传按钮的 ...
flask 模型一对多个人理解
在modle中创建两个模型表 class User(db.Model): id = db.Column(db.Integer,primary_key=True,autoincrement=True) ...
JDK java version "1.8.0_181"环境搭建
1.从官网上下载jdk软件,本人的系统是32位 WIN10 所以只能装1.8.0_181的了.x86 2.下载完就按照提示安装就可以了,傻瓜式操作就不多说了. 3.配置环境环境变量 3.1 点击我的电 ...

分布式爬虫scrapy-redis

分布式爬虫scrapy-redis的更多相关文章

随机推荐

热门专题