爬去当当书籍信息

多台机器同时爬取,共用一个redis记录 scrapy_redis

带爬取的request对象储存在redis中,每台机器读取request对象并删除记录,经行爬取。实现分布式爬虫

import scrapy
from scrapy_redis.spiders import RedisSpider
from copy import deepcopy class DangdangSpider(RedisSpider):
name = 'dangdang'
allowed_domains = ['dangdang.com']
# 开始爬虫,会从redis的key中读取start_url.
redis_key = "dangdang" # lpush dangdang 'http://book.dangdang.com/' def parse(self, response):
# 大分类
div_list = response.xpath("//div[@class='con flq_body']/div")[:-4]
print(len(div_list), 'duoshao')
for div in div_list:
item = {}
item['b_cate'] = div.xpath("./dl/dt//text()").extract()
item['b_cate'] = [i.strip() for i in item['b_cate'] if len(i.strip())>0] # 过滤掉空字符
print('b_cate:', item['b_cate'])
# 中间分类
if item['b_cate'] == ['创意文具']:
print(item['b_cate'], "pass......")
item['m_cate'] = None
item['s_cate_url'] = div.xpath("./dl/dt/a/@ddt-src").extract_first()
print('s_cate_url:', item['m_cate'])
# yield scrapy.Request(
# item['s_cate_url'],
# callback=self.parse_special,
# meta={'item': deepcopy(item)}
# )
else:
dl_list = div.xpath(".//dl[@class='inner_dl']")
for dl in dl_list:
item['m_cate'] = dl.xpath("./dt//text()").extract()
item['m_cate'] = [i.strip() for i in item['m_cate'] if len(i.strip())>0]
# 小分类
dd_list = dl.xpath("./dd")
for dd in dd_list:
item['s_cate'] = dd.xpath("./a/@title").extract_first()
item['s_cate_url'] = dd.xpath("./a/@ddt-src").extract_first()
# 小分类的所有书籍
if item['s_cate_url'] is not None:
yield scrapy.Request(
item['s_cate_url'],
callback=self.parse_books,
meta={'item': deepcopy(item)}
) def parse_special(self, response):
''' 文具信息 '''
pass def parse_books(self, response):
item = response.meta['item']
# 当前小分类的书籍
li_list = response.xpath("//ul[@class='list_aa ']/li")
if li_list is not None:
for li in li_list:
try:
item['book_price'] = li.xpath(".//span[@class='num']/text()").extract_first() + \
li.xpath(".//span[@class='tail']/text()").extract_first()
except:
item['book_price'] = 'Unknown'
item['book_url'] = li.xpath("./a/@href").extract_first()
if item['book_url'] is not None:
yield scrapy.Request(
item['book_url'],
callback=self.parse_book_detail,
meta={'item': deepcopy(item)}
) def parse_book_detail(self, response):
item = response.meta['item']
item['book_name'] = response.xpath("//div[@class='name_info']/h1/img/text()").extract_first()
item['book_desc'] = response.xpath("//span[@class='head_title_name']/text()").extract_first()
# 这一本书籍的详细信息
span_list = response.xpath("//div[@class='messbox_info']/span")
item['book_author'] = span_list.xpath("./span[1]/a/text()").extract() # 可能多个作者
item['publisher'] = span_list.xpath("./span[2]/a/text()").extract_first()
item['pub_date'] = span_list.xpath("./span[3]/text()").extract_first()
print(item)
# yield item

scrapy 分布式爬虫- RedisSpider的更多相关文章

  1. 第三百五十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点

    第三百五十六节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点 1.分布式爬虫原理 2.分布式爬虫优点 3.分布式爬虫需要解决的问题

  2. scrapy分布式爬虫scrapy_redis二篇

    =============================================================== Scrapy-Redis分布式爬虫框架 ================ ...

  3. scrapy分布式爬虫scrapy_redis一篇

    分布式爬虫原理 首先我们来看一下scrapy的单机架构:     可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页 ...

  4. Scrapy分布式爬虫,分布式队列和布隆过滤器,一分钟搞定?

    使用Scrapy开发一个分布式爬虫?你知道最快的方法是什么吗?一分钟真的能 开发好或者修改出 一个分布式爬虫吗? 话不多说,先让我们看看怎么实践,再详细聊聊细节~ 快速上手 Step 0: 首先安装 ...

  5. 三十五 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点

    1.分布式爬虫原理 2.分布式爬虫优点 3.分布式爬虫需要解决的问题

  6. Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章

    二.伯乐在线爬取所有文章 1. 初始化文件目录 基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...

  7. Centos7__Scrapy + Scrapy_redis 用Docker 实现分布式爬虫

    原理:其实就是用到redis的优点及特性,好处自己查--- 1,scrapy 分布式爬虫配置: settings.py BOT_NAME = 'first' SPIDER_MODULES = ['fi ...

  8. Scrapy框架之基于RedisSpider实现的分布式爬虫

    需求:爬取的是基于文字的网易新闻数据(国内.国际.军事.航空). 基于Scrapy框架代码实现数据爬取后,再将当前项目修改为基于RedisSpider的分布式爬虫形式. 一.基于Scrapy框架数据爬 ...

  9. 爬虫--Scrapy-基于RedisSpider实现的分布式爬虫

    爬取网易新闻 需求:爬取的是基于文字的新闻数据(国内,国际,军事,航空) 先编写基于scrapycrawl 先创建工程 scrapy startproject 58Pro cd 58Pro 新建一个爬 ...

随机推荐

  1. mysql 子句、子查询、连接查询

    一.mysql查询的五种子句 where子句(条件查询):按照“条件表达式”指定的条件进行查询. group by子句(分组):按照“属性名”指定的字段进行分组.group by子句通常和count( ...

  2. 『Python基础』第7节:基本运算符

    一. 基本运算符 运算按种类可以分为: 算数运算.比较运算.逻辑运算.赋值运算.成员运算.身份运算.位运算. 今天我们只学习算数运算.比较运算.逻辑运算.赋值运算.成员运算 1.1 算数运算 以下假设 ...

  3. 基于openfire的IM即时通讯软件开发

    openfire:http://www.igniterealtime.org/ Xmpp:http://xmpp.org/ IOS(xmppframework):https://github.com/ ...

  4. PB笔记之数据窗口可编辑的条件

    1.列的tab order为0,列不能获得焦点2.dw_control.object.datawindow.readonly="yes"3.DW.Object.<Column ...

  5. 1byte、1KB、4KB,1MB、1GB用16进制表示的范围。任意地址范围求字节数

    1byte.1KB.4KB,1MB.1GB用16进制表示的范围.任意地址范围求字节数 2018-02-12 18:27:48 望那伊人 阅读数 5032更多 分类专栏: 计算机相关   版权声明:本文 ...

  6. 算术 HDU - 6715 (莫比乌斯反演)

    大意: 给定$n,m$, 求$\sum\limits_{i=1}^n\sum\limits_{j=1}^m\mu(lcm(i,j))$ 首先有$\mu(lcm(i,j))=\mu(i)\mu(j)\m ...

  7. dg搭建后oracle_redo不存在

    目的:在oracle 10.2.0.4 环境中,搭建oracle dg遇到 备库redo不存在的问题,另一位同事搭建oracle 11.2.0.4 dg在备库也遇到同样的问题,如下描述处理过程. 参考 ...

  8. 音视频入门-08-RGB&YUV

    * 音视频入门文章目录 * YUV & RGB 相互转换公式 YCbCr 的 Y 与 YUV 中的 Y 含义一致,Cb 和 Cr 与 UV 同样都指色彩,Cb 指蓝色色度,Cr 指红色色度,在 ...

  9. C#压缩和解压文件

    这里用两种方法实现C#压缩和解压文件 1.使用System.IO.Compression名称空间下的相关类(需引用 System.IO.Compression.FileSystem和System.IO ...

  10. javascript -- 把按钮变成读秒倒计时

    $('#btn').click(function(){ //设置按钮倒计时 $(this).addClass('disabled'); //把按钮变灰 $(this).attr('disabled', ...