爬虫开发14.scrapy框架之分布式操作

分布式爬虫

一.redis简单回顾

　　1.启动redis：

　　　　mac/linux: redis-server redis.conf

　　　　windows: redis-server.exe redis-windows.conf

　　2.对redis配置文件进行配置：

　　　　- 注释该行：bind 127.0.0.1，表示可以让其他ip访问redis

　　　　- 将yes该为no：protected-mode no，表示可以让其他ip操作redis

二.scrapy基于redis的数据持久化操作流程

　　1.安装scrapy-redis组件：

　　　　- pip install scrapy-redis

　　　　- scrapy-redis是基于scrapy框架开发出的一套组件，其作用就是可以让scrapy实现分布式爬虫。

　　2.编写爬虫文件：

　　　　- 同之前scrapy中基于Spider或者CrawlSpider的编写方式一致。

　　3.编写管道文件：

　　　　- 在scrapy-redis组件中已经帮助我们封装好了一个专门用于连接存储redis数据库的管道（RedisPipeline），因此我们直接使用即可，无需自己编写管道文件。

　　4.编写配置文件：

　　　　- 在settings.py中开启管道，且指定使用scrapy-redis中封装好的管道。

ITEM_PIPELINES = {

    'scrapy_redis.pipelines.RedisPipeline': 400

}

- 该管道默认会连接且将数据存储到本机的redis服务中，如果想要连接存储到其他redis服务中需要在settings.py中进行如下配置：

REDIS_HOST = 'redis服务的ip地址'

REDIS_PORT = 6379

REDIS_ENCODING = ‘utf-8’

REDIS_PARAMS = {‘password’:’123456’}

三.redis分布式部署

　　1.scrapy框架是否可以自己实现分布式？

　　　　- 不可以。原因有二。

　　　　　　其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）

　　　　　　其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。（多台机器无法共享同一个管道）

　　2.redis实现分布式基本流程：

　　　　- 使用基于scrapy-redis组件中的爬虫文件。

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from movieproject.items import MovieprojectItem

#导入scrapy-redis中的模块

from scrapy_redis.spiders import RedisCrawlSpider

class NnSpider(RedisCrawlSpider):

    name = 'nn'

    allowed_domains = ['www.id97.com']

    #redis_key表示调度器中的队列（将要爬取的页面数据对应的url都需要放置到调度器队列中）

    redis_key = 'nnspider:start_urls'

    # 根据规则提取所有的页码链接

    page_link = LinkExtractor(allow=r'/movie/\?page=\d')

    detail_link = LinkExtractor(restrict_xpaths='//div[contains(@class,"col-xs-1-5")]/div/a')

    # detail_link = LinkExtractor(allow=r'/movie/\d+\.html$')

    # follow : 是否跟进

    rules = (

        # 所有的页码不用处理，跟进即可

        Rule(page_link, follow=True),

        # 所有的详情页处理，不用跟进

        Rule(detail_link, callback='parse_item', follow=False),

    )

    def parse_item(self, response):

        # 创建一个item对象

        item = MovieprojectItem()

        # 电影海报

        item['post'] = response.xpath('//a[@class="movie-post"]/img/@src').extract_first()

        # 电影名字

        item['name'] = response.xpath('//h1').xpath('string(.)').extract_first()

        yield item

- 使用scrapy-redis组件中封装好的调度器，将所有的url存储到该指定的调度器中，从而实现了多台机器的调度器共享。

# 使用scrapy-redis组件的去重队列

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用scrapy-redis组件自己的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 是否允许暂停

SCHEDULER_PERSIST = True

　- 使用scrapy-redis组件中封装好的管道，将每台机器爬取到的数据存储通过该管道存储到redis数据库中，从而实现了多台机器的管道共享。

ITEM_PIPELINES = {

   'scrapy_redis.pipelines.RedisPipeline': 400,

}

爬虫开发14.scrapy框架之分布式操作的更多相关文章

爬虫开发11.scrapy框架之CrawlSpider操作
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
爬虫开发8.scrapy框架之持久化操作
今日概要基于终端指令的持久化存储基于管道的持久化存储今日详情 1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的 ...
scrapy框架之分布式操作
分布式概念分布式爬虫: 1.概念:多台机器上可以执行同一个爬虫程序,实现网站数据的分布爬取. 2.原生的scrapy是不可以实现分布式爬虫? a)调度器无法共享 b)管道无法共享 3.scrapy- ...
6 scrapy框架之分布式操作
分布式爬虫一.redis简单回顾 1.启动redis: mac/linux: redis-server redis.conf windows: redis-server.exe redis-wi ...
爬虫开发7.scrapy框架简介和基础应用
scrapy框架简介和基础应用阅读量: 1432 scrapy 今日概要 scrapy框架介绍环境安装基础使用今日详情一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数 ...
爬虫开发9.scrapy框架之递归解析和post请求
今日概要递归爬取解析多页页面数据 scrapy核心组件工作流程 scrapy的post请求发送今日详情 1.递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久 ...
爬虫开发10.scrapy框架之日志等级和请求传参
今日概要日志等级请求传参今日详情一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息. - 日志 ...
Python分布式爬虫开发搜索引擎 Scrapy实战视频教程
点击了解更多Python课程>>> Python分布式爬虫开发搜索引擎 Scrapy实战视频教程课程目录 |--第01集教程推介 98.23MB |--第02集 windows下 ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...

随机推荐

【312】◀▶ arcpy 常用函数说明
其他常用的 ArcPy 函数说明序号类名称功能说明语法 & 举例 01 RefreshActiveView ====<<<< Description ...
【305】◀▶ ArcPy 相关功能实现
目录: 1. 同一图层的多个要素合并(2种方法) 2. 导入带经纬度坐标的 txt 文件 3. 栅格计算器的实现 4. 添加 shp 文件(显示在 ArcMap) 5. 通过经纬度坐标生成 Polyg ...
<转>UNIX 共享内存应用中的问题及解决方法
http://www.ibm.com/developerworks/cn/aix/library/au-cn-sharemem/ 共享内存是一种非常重要且常用的进程间通信方式,相对于其它IPC机制,因 ...
web前端整套面试题(三)--网易的面试题
题型分析: 一.选择题部分(30分) 元素出栈可能性排序方法的优缺点 HTTP请求方法关系型数据库种类多线程(进程与线程共享) 计算机网络协议 linux指令 JQuery实现方法二.编程题( ...
apply-register-acl 参数允许FreeSWITCH分机注册/拨打不验证密码
今天调试发现注册的分机的 `Auth-User` 居然是 `unknown` !!! 怎么回事? 仔细对比检查发现, internal profile 指定了 `apply-register- ...
编码总结，以及对BOM的理解
一.前言在跨平台.跨操作系统或者跨区域之间,经常会涉及到编码的问题,因为前段时间在项目中,遇到了因为编码而产生乱码的问题,以前对编码也是一知半解,所以决定对编码有一个更为深入的了解,因此才有了这篇自 ...
C++ std::vector<bool>
std::vector template < class T, class Alloc = allocator<T> > class vector; // generic te ...
Window: move\copy\xcopy
Move 移动文件和重命名文件与目录. 要移动一个或多个文件: MOVE [/Y | /-Y] [drive:][path]filename1[,...] destination 要重命名目录: MO ...
List 组件简单示例及其onItemsDisclosure点击事件
来自<sencha touch权威指南>第9章,276页开始 ------------------------------------------------- app.js代码如下: E ...
shared_ptr / weak_ptr 代码片段
参考<<Boost程序库完全开放指南>> shared_ptr 类摘要(只列出了常用的部分)和相关说明 template <class T> class shar ...

爬虫开发14.scrapy框架之分布式操作

爬虫开发14.scrapy框架之分布式操作的更多相关文章

随机推荐

热门专题