scrapy 分布式爬虫- RedisSpider

爬去当当书籍信息

多台机器同时爬取，共用一个redis记录 scrapy_redis

带爬取的request对象储存在redis中，每台机器读取request对象并删除记录，经行爬取。实现分布式爬虫

import scrapy

from scrapy_redis.spiders import RedisSpider

from copy import deepcopy

class DangdangSpider(RedisSpider):

    name = 'dangdang'

    allowed_domains = ['dangdang.com']

    # 开始爬虫，会从redis的key中读取start_url.

    redis_key = "dangdang" # lpush dangdang 'http://book.dangdang.com/'

    def parse(self, response):

        # 大分类

        div_list = response.xpath("//div[@class='con flq_body']/div")[:-4]

        print(len(div_list), 'duoshao')

        for div in div_list:

            item = {}

            item['b_cate'] = div.xpath("./dl/dt//text()").extract()

            item['b_cate'] = [i.strip() for i in item['b_cate'] if len(i.strip())>0] # 过滤掉空字符

            print('b_cate:', item['b_cate'])

            # 中间分类

            if item['b_cate'] == ['创意文具']:

                print(item['b_cate'], "pass......")

                item['m_cate'] = None

                item['s_cate_url'] = div.xpath("./dl/dt/a/@ddt-src").extract_first()

                print('s_cate_url:', item['m_cate'])

                # yield scrapy.Request(

                #     item['s_cate_url'],

                #     callback=self.parse_special,

                #     meta={'item': deepcopy(item)}

                # )

            else:

                dl_list = div.xpath(".//dl[@class='inner_dl']")

                for dl in dl_list:

                    item['m_cate'] = dl.xpath("./dt//text()").extract()

                    item['m_cate'] = [i.strip() for i in item['m_cate'] if len(i.strip())>0]

                    # 小分类

                    dd_list = dl.xpath("./dd")

                    for dd in dd_list:

                        item['s_cate'] = dd.xpath("./a/@title").extract_first()

                        item['s_cate_url'] = dd.xpath("./a/@ddt-src").extract_first()

                        # 小分类的所有书籍

                        if item['s_cate_url'] is not None:

                            yield scrapy.Request(

                                item['s_cate_url'],

                                callback=self.parse_books,

                                meta={'item': deepcopy(item)}

                            )

    def parse_special(self, response):

        ''' 文具信息 '''

        pass

    def parse_books(self, response):

        item = response.meta['item']

        # 当前小分类的书籍

        li_list = response.xpath("//ul[@class='list_aa ']/li")

        if li_list is not None:

            for li in li_list:

                try:

                    item['book_price'] = li.xpath(".//span[@class='num']/text()").extract_first() + \

                                         li.xpath(".//span[@class='tail']/text()").extract_first()

                except:

                    item['book_price'] = 'Unknown'

                item['book_url'] = li.xpath("./a/@href").extract_first()

                if item['book_url'] is not None:

                    yield scrapy.Request(

                        item['book_url'],

                        callback=self.parse_book_detail,

                        meta={'item': deepcopy(item)}

                    )

    def parse_book_detail(self, response):

        item = response.meta['item']

        item['book_name'] = response.xpath("//div[@class='name_info']/h1/img/text()").extract_first()

        item['book_desc'] = response.xpath("//span[@class='head_title_name']/text()").extract_first()

        # 这一本书籍的详细信息

        span_list = response.xpath("//div[@class='messbox_info']/span")

        item['book_author'] = span_list.xpath("./span[1]/a/text()").extract() # 可能多个作者

        item['publisher'] = span_list.xpath("./span[2]/a/text()").extract_first()

        item['pub_date'] = span_list.xpath("./span[3]/text()").extract_first()

        print(item)

        # yield item

scrapy 分布式爬虫- RedisSpider的更多相关文章

第三百五十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点
第三百五十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点 1.分布式爬虫原理 2.分布式爬虫优点 3.分布式爬虫需要解决的问题
scrapy分布式爬虫scrapy_redis二篇
=============================================================== Scrapy-Redis分布式爬虫框架 ================ ...
scrapy分布式爬虫scrapy_redis一篇
分布式爬虫原理首先我们来看一下scrapy的单机架构: 可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页 ...
Scrapy分布式爬虫，分布式队列和布隆过滤器，一分钟搞定？
使用Scrapy开发一个分布式爬虫?你知道最快的方法是什么吗?一分钟真的能开发好或者修改出一个分布式爬虫吗? 话不多说,先让我们看看怎么实践,再详细聊聊细节~ 快速上手 Step 0: 首先安装 ...
三十五 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点
1.分布式爬虫原理 2.分布式爬虫优点 3.分布式爬虫需要解决的问题
Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章
二.伯乐在线爬取所有文章 1. 初始化文件目录基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...
Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫
原理:其实就是用到redis的优点及特性,好处自己查--- 1,scrapy 分布式爬虫配置: settings.py BOT_NAME = 'first' SPIDER_MODULES = ['fi ...
Scrapy框架之基于RedisSpider实现的分布式爬虫
需求:爬取的是基于文字的网易新闻数据(国内.国际.军事.航空). 基于Scrapy框架代码实现数据爬取后,再将当前项目修改为基于RedisSpider的分布式爬虫形式. 一.基于Scrapy框架数据爬 ...
爬虫--Scrapy-基于RedisSpider实现的分布式爬虫
爬取网易新闻需求:爬取的是基于文字的新闻数据(国内,国际,军事,航空) 先编写基于scrapycrawl 先创建工程 scrapy startproject 58Pro cd 58Pro 新建一个爬 ...

随机推荐

Java基础IO类之File类
大三了,目前基础太差了,重新学习过!代码如下,里面都有详细的解释每一行代码代表的意思~ package IODemo; import java.io.File; import java.io.File ...
[v]Linux下安装Git
Ubuntu12.04中默认没有安装Git.需要自行安装. 1. 安装Git 1.1 Ubuntu12.04下可以使用apt-get方式安装,也可以下载源代码安装[1],我们这里使用apt-git安 ...
手动实现自己的spring事务注解
spring事务是基于同一个数据连接来实现的,认识到这一点是spring事务的关键,spring事务的关键点便在于在事务中不管执行几次db操作,始终使用的是同一个数据库连接.通过查看源码,我们可以看到 ...
在论坛中出现的比较难的sql问题：26(动态行专列+合并字符串、补足行数)
原文:在论坛中出现的比较难的sql问题:26(动态行专列+合并字符串.补足行数) 最近,在论坛中,遇到了不少比较难的sql问题,虽然自己都能解决,但发现过几天后,就记不起来了,也忘记解决的方法了. 所 ...
JavaScript 入门与进阶
JavaScript 介绍 javascript 是运行在浏览器端的脚本语言,javascript 主要解决的是前端与用户交互的问题,包括使用交互和数据交互,javascript 是浏览器解释执行 ...
rem em min-width: 30em 的意思
30em=30rem=30x16px=480px @media only screen and (min-width:30 em){ }
什么是Familywise Error Rate
1.什么是Familywise Error Rate(FWE or FWER) 定义:在一系列假设检验中,至少得出一次错误结论的概率. 换句话说,是造成至少一次Type I Error的概率.术语FW ...
laravel登录后其他页面拿不到登录信息
登录本来是用表单的,我自作聪明的使用ajax提交 public function login(Request $request){ $data = $request->input(); $dat ...
元组和range
元组只读列表,不支持增删改:但是元组里的列表可以增删改元组其实就是通过逗号(,)设定的,和小括号并没有什么必然的关系,所以当元组只有一个元素的时候,需要在元素后加个逗号存储大量数据,有序.不 ...
JAVA工程师必学技能，进阶&涨薪的推进器！这份实战教程请收下
Netty 作为互联网中间件的基石,是 JAVA 工程师进阶为高级程序员必备的能力之一.也是目前是互联网中间件领域使用最广泛最核心的网络通信框架. Netty是一个高性能.异步事件驱动的NIO框架,它 ...

scrapy 分布式爬虫- RedisSpider

scrapy 分布式爬虫- RedisSpider的更多相关文章

随机推荐

热门专题