scrapy爬虫-scrapy-redis分布式

1、如何将一个scrapy爬虫项目修改成为一个简单的分布式爬虫项目

官方文档：https://scrapy-redis.readthedocs.io/en/stable/

只用修改scrapy项目的两个文件就可以了

一个是爬虫组件文件：

# -*- coding: utf-8 -*-

import scrapy

from scrapy_redis.spiders import RedisSpider

# 自定义爬虫类的继承类不再是scrapy.spiders下面的爬虫类，

# 而是scrapy-redis.spiders下面的爬虫类

class DistributedSpiderSpider(RedisSpider):

    name = 'distributed_spider'

    allowed_domains = ['wh.lianjia.com']

    # 将start_urls替换为redis_key

    # start_urls = ['https://wh.lianjia.com/ershoufang/']

    redis_key = "myspider:start_urls"

    def parse(self, response):

        print(response.meta)

        item = dict()

        item["province"] = "湖北"

        item["city"] = "武汉"

        blocks = response.xpath("//div[@class='position']/dl[2]/dd/div[1]/div/a")

        for block in blocks:

            title = blocks.xpath("./@title").get()

            url = "https://wh.lianjia.com" + block.xpath("./@href").get()

            print(title, url, "=====================================")

            yield scrapy.Request(url=url, callback=self.parse_block, meta={"item": item})

    def parse_block(self, response):

        print(response.meta)

        url = response.url + "pg%dco32/"

        index = 1

        while index < 100:

            new_url = url % index

            print(new_url)

            yield scrapy.Request(url=new_url, callback=self.parse_item, meta={"item": response.meta["item"]})

            index += 1

    def parse_item(self, response):

        print(response.meta)

        sellLinks = response.css("ul.sellListContent>li>a")

        for link in sellLinks:

            url = link.xpath("./@href").get()

            print(url)

            yield scrapy.Request(url=url, callback=self.parse_detail, meta={"item": response.meta["item"]})

    def parse_detail(self, response):

        item = response.meta["item"]

        print(response.meta)

        item["url"] = response.url

        item["block"] = response.css("div.areaName>span.info").xpath("./a[1]/text()").get().strip()

        item["smallBlock"] = response.css("div.areaName>span.info").xpath("./a[2]/text()").get().strip()

        item["price"] = response.xpath("//span[@class='total']/text()").get().strip() + "万"

        item["unitPrice"] = response.xpath("//span[@class='unitPriceValue']/text()").get().strip() + "元/平米"

        print(item)

另一个是设置文件（settings.py）:

在设置文件中添加几个设置项就可以了

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

ITEM_PIPELINES = {

   'DistributedSpider.pipelines.DistributedspiderPipeline': 300,

   'scrapy_redis.pipelines.RedisPipeline': 400

}

REDIS_HOST = "localhost"  # 要连接的redis数据库的地址

REDIS_PORT = ""  # redis数据库启动时的默认端口

scrapy爬虫-scrapy-redis分布式的更多相关文章

[scrapy-redis] 将scrapy爬虫改造成分布式爬虫 (2)
1. 修改redis设置 redis默认处在protection mode, 修改/etc/redis.conf, protected-mode no, 或者给redis设置密码, 将bind 127 ...
<scrapy爬虫>scrapy命令行操作
1.mysql数据库 2.mongoDB数据库 3.redis数据库 1.创建项目 scrapy startproject myproject cd myproject 2.创建爬虫 scrapy g ...
python - scrapy 爬虫框架 ( redis去重 )
1. 使用内置,并加以修改 ( 自定义 redis 存储的 keys ) settings 配置 # ############### scrapy redis连接 ################# ...
自己动手实现爬虫scrapy框架思路汇总
这里先简要温习下爬虫实际操作: cd ~/Desktop/spider scrapy startproject lastspider # 创建爬虫工程 cd lastspider/ # 进入工程 sc ...
(5)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置
软件版本: redis-2.4.6-setup-64-bit.exe — Redis 2.4.6 Windows Setup (64-bit) 系统: win7 64bit 本篇的内容是为了给分布式下 ...
Scrapy+Scrapy-redis+Scrapyd+Gerapy 分布式爬虫框架整合
简介:给正在学习的小伙伴们分享一下自己的感悟,如有理解不正确的地方,望指出,感谢~ 首先介绍一下这个标题吧~ 1. Scrapy:是一个基于Twisted的异步IO框架,有了这个框架,我们就不需要等待 ...
爬虫---scrapy分布式和增量式
分布式概念: 需要搭建一个分布式的机群, 然后在每一台电脑中执行同一组程序, 让其对某一网站的数据进行联合分布爬取. 原生的scrapy框架不能实现分布式的原因调度器不能被共享, 管道也不能被共享 ...
(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)
转载主注明出处:http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中,我们遇到比较多需求就是文件下载以及图片下载,在其它的语言或者框架中,我们可能 ...
(2)分布式下的爬虫Scrapy应该如何做-关于对Scrapy的反思和核心对象的介绍
本篇主要介绍对于一个爬虫框架的思考和,核心部件的介绍,以及常规的思考方法: 一,猜想我们说的爬虫,一般至少要包含几个基本要素: 1.请求发送对象(sender,对于request的封装,防止被封) ...

随机推荐

ansible批量部署模块(二)
回顾:Ansible: 无需客户端程序只要有SSH 模块化 ansible帮助工具ansible-doc 模块名ansible-doc 模块名 -s 列出该模块的所有选项ansible-doc -l ...
linux下 c语言调用c++
/*****************************g++编译cpp 文件为库文件.编译C文件时gcc 要链接 -l stdc++ 这个库**(非常重要)*///定义c++ class 头文件 ...
ZJNU 1138 - 小兔的棋盘——中级
二维图的动态规划因为不能穿越对角线,则选取对角线的一边dp即可选取对角线右下侧则x轴上每个点只能由其左侧的点走过去(只有1条)对角线上的点只能由对角线下方的点走过去其他点可以由左侧和下侧两种方式到达因 ...
深度优先搜索（DFS）和广度优先搜索（BFS）求解迷宫问题
用下面这个简单的迷宫图作为例子: OXXXXXXX OOOOOXXX XOXXOOOX XOXXOXXO XOXXXXXX XOXXOOOX XOOOOXOO XXXXXXXO O为通路,X为障碍物. ...
dns bind记录
自建DNS服务, 使用的工具是bind, 当然也有其他更轻量的工具 yum -y install bind /etc/named.conf 监听端口和ip修改默认监听127.0.0.1 其他机器无法 ...
VisitsService
package me.zhengjie.monitor.domain; import lombok.Data; import org.hibernate.annotations.CreationTim ...
Socket设置超时时间
主要有以下两种方式,我们来看一下方式1: Socket s=new Socket(); s.connect(new InetSocketAddress(host,port),10000); 方式2: ...
DataGrip设置时区
新版本DataGrip以默认时区取世界标准时间.要想时间显示正常,需要将时区变为上海时区,可手动在连接配置里设置参数.如下图: 操作步骤1.右键打开你想要修改的数据库连接的Properties菜单:2 ...
Spring-security整理
出于某些原因,需要学习一下spring的安全框架.(研究半天,如果单单说用户认证和授权这块儿,我感觉还是shiro好用.) spring security介绍可以参考一下以下文档: (满满的羡慕啊)我 ...
sql常见面试（2）
1.sql 删除表中重复数据保留一条 1)删除表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断,只留有rowid最小的记录 delete from people where p ...

scrapy爬虫-scrapy-redis分布式

scrapy爬虫-scrapy-redis分布式的更多相关文章

随机推荐

热门专题