基于scrapy框架的分布式爬虫

分布式

概念：可以使用多台电脑组件一个分布式机群，让其执行同一组程序，对同一组网络资源进行联合爬取。
原生的scrapy是无法实现分布式
- 调度器无法被共享
- 管道无法被共享
基于 scrapy+redis（scrapy&scrapy-redis组件）实现分布式
scrapy-redis组件作用：
- 提供可被共享的管道和调度器
环境安装：
```
pip install scrapy-redis
```

编码流程：

1.创建工程

2.cd proName

3.创建crawlspider的爬虫文件

4.修改一下爬虫类：

    - 导包：from scrapy_redis.spiders import RedisCrawlSpider

    - 修改当前爬虫类的父类：RedisCrawlSpider

    - allowed_domains和start_urls删除

    - 添加一个新属性：redis_key = 'xxxx'可以被共享的调度器队列的名称

5.修改配置settings.py

    - 指定管道

        ITEM_PIPELINES = {

                'scrapy_redis.pipelines.RedisPipeline': 400

            }

    - 指定调度器

增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化

        DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

        # 使用scrapy-redis组件自己的调度器

        SCHEDULER = "scrapy_redis.scheduler.Scheduler"

        # 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据

        SCHEDULER_PERSIST = True

    - 指定redis数据库

        REDIS_HOST = '127.0.0.1'

        REDIS_PORT = 6379

 6.配置redis数据库（redis.windows.conf）

    - 关闭默认绑定

        - 56Line：#bind 127.0.0.1

    - 关闭保护模式

        - 75line：protected-mode no

 7.启动redis服务（携带配置文件）和客户端

    - redis-server.exe redis.windows.conf

    - redis-cli

 8.执行工程

    - scrapy runspider spider.py

 9.将起始的url仍入到可以被共享的调度器的队列（sun）中

    - 在redis-cli中操作：lpush sun www.xxx.com

 10.redis:

    - xxx:items:存储的就是爬取到的数据

爬虫代码：

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from scrapy_redis.spiders import RedisCrawlSpider

from fbsPro.items import FbsproItem

class FbsSpider(RedisCrawlSpider):

    name = 'fbs'

    # allowed_domains = ['www.xxx.com']

    # start_urls = ['http://www.xxx.com/']

    redis_key = 'sun'     # 可以被共享的调度器队列的名称

    link = LinkExtractor(allow=r'type=4&page=\d+')

    rules = (

        Rule(link, callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        tr_list = response.xpath('//*[@id="morelist"]/div/table[2]//tr/td/table//tr')

        for tr in tr_list:

            title = tr.xpath('./td[2]/a[2]/@title').extract_first()

            status = tr.xpath('./td[3]/span/text()').extract_first()

            item = FbsproItem()

            item['title'] = title

            item['status'] = status

            yield item

基于scrapy框架的分布式爬虫的更多相关文章

一个基于Scrapy框架的pixiv爬虫
源码 https://github.com/vicety/Pixiv-Crawler,功能什么的都在这里介绍了说几个重要的部分吧登录部分困扰我最久的部分,网上找的其他pixiv爬虫的登录方式大多 ...
python基于scrapy框架的反爬虫机制破解之User-Agent伪装
user agent是指用户代理,简称 UA. 作用:使服务器能够识别客户使用的操作系统及版本.CPU 类型.浏览器及版本.浏览器渲染引擎.浏览器语言.浏览器插件等. 网站常常通过判断 UA 来给不同 ...
Scrapy框架之基于RedisSpider实现的分布式爬虫
需求:爬取的是基于文字的网易新闻数据(国内.国际.军事.航空). 基于Scrapy框架代码实现数据爬取后,再将当前项目修改为基于RedisSpider的分布式爬虫形式. 一.基于Scrapy框架数据爬 ...
爬虫开发14.scrapy框架之分布式操作
分布式爬虫一.redis简单回顾 1.启动redis: mac/linux: redis-server redis.conf windows: redis-server.exe redis-wi ...
基于redis的简易分布式爬虫框架
代码地址如下:http://www.demodashi.com/demo/13338.html 开发环境 Python 3.6 Requests Redis 3.2.100 Pycharm(非必需,但 ...
基于scrapy框架的爬虫
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. scrapy 框架高性能的网络请求高性能的数据解析高性能的 ...
基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
scrapy框架之分布式操作
分布式概念分布式爬虫: 1.概念:多台机器上可以执行同一个爬虫程序,实现网站数据的分布爬取. 2.原生的scrapy是不可以实现分布式爬虫? a)调度器无法共享 b)管道无法共享 3.scrapy- ...
6 scrapy框架之分布式操作
分布式爬虫一.redis简单回顾 1.启动redis: mac/linux: redis-server redis.conf windows: redis-server.exe redis-wi ...

随机推荐

软件测试最常用的 SQL 命令 | 掌握基本查询、条件查询、聚合查询
1.DML核心CRUD增删改查缩写全称和对应 SQL: * DML 数据操纵语言:Data Manipulation Language * Create 增加:insert * Retrieve 查 ...
Python利用zmail收取邮件
收取邮件一般用pop和imap,这里使用国人大神开发的zmail来收取: 1 ''' 2 #利用zmail收取邮件 3 #只要几行代码 4 #安装库:pip3 install zmail 5 #国内大 ...
用Wireshark对Android应用的网络流量进行抓包
通过Wireshark.Charles.Burpsuite等工具分析网络流量的过程,又叫做抓包. 为何需要抓包测试手机应用(如搜狗号码通.搜狗手机浏览器)的功能时,经常遇到与网络交互的场景,这时候我 ...
Android插件换肤一.实现原理
学习缺的不是时间,而是耐心目的 1.搞懂系统获取资源文件到在加载布局的整个流程是自己实现换肤功能的理论基础 2.提高分析源码.追踪源码的能力要点 1.XmlResourceParser (通过这个 ...
sklearn: CountVectorize处理及一些使用参数
sklearn: CountVectorize处理及一些使用参数 CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法.对于每一个训练文本,它只考虑每种词汇在该训练文本中出 ...
蚂蚁开源的 SOFABoot，和 Spring Boot 有啥关系？
一.SOFABoot 是什么鬼? 说到 SOFABoot,不得不先说下 SOFARPC 框架,SOFARPC 也是大名远扬,最早起源于阿里淘宝 HSF 框架,现在是蚂蚁金服开源的一款高性能.高可扩展性 ...
在 easyui中获取form表单中所有提交的数据拼接到table列表中
form表单=====  <div id="usingProdctMsgDiv" style="display: ...
idea中快捷键换成熟悉的celipse中快捷键
打开idea,找到菜单栏的file,点击打开,找到settings,打开用key做关键词搜索keymap 找到之后点击打开,右侧就会显示快捷键界面,可以点击查看每一项 4 默认为defaul ...
hibernate连接数据库中文乱码
4.做完这两步还是不行,需要修改hibernate的配置文件hibernate.cfg.xml,在配置文件配置hibernate.connection.url属性.示例: <property n ...
API接口的安全设计验证—ticket，签名，时间戳
概述与前端对接的API接口,如果被第三方抓包并进行恶意篡改参数,可能会导致数据泄露,甚至会被篡改数据,我主要围绕时间戳,token,签名三个部分来保证API接口的安全性 1.用户成功登陆站点后,服务 ...

基于scrapy框架的分布式爬虫

分布式

基于scrapy框架的分布式爬虫的更多相关文章

随机推荐

热门专题