Scrapy-redis改造scrapy实现分布式多进程爬取

一.基本原理：
Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。
参考Scrapy-Redis官方github地址

二.准备工作：
1.安装并启动redis，Windows和lunix可以参考这篇
2.scrapy+Python环境安装
3.scrapy_redis环境安装

$ pip install scrapy-redis

$ pip install redis

三.改造scrapy爬虫：
1.首先在settings.py中配置redis（在scrapy-redis 自带的例子中已经配置好）

   SCHEDULER = "scrapy_redis.scheduler.Scheduler"

   SCHEDULER_PERSIST = True

   SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

   REDIS_URL = None # 一般情况可以省去

   REDIS_HOST = '127.0.0.1' # 也可以根据情况改成 localhost

   REDIS_PORT = 6379

2.item.py的改造

from scrapy.item import Item, Field

from scrapy.loader import ItemLoader

from scrapy.loader.processors import MapCompose, TakeFirst, Join

class ExampleItem(Item):

    name = Field()

    description = Field()

    link = Field()

    crawled = Field()

    spider = Field()

    url = Field()

class ExampleLoader(ItemLoader):

    default_item_class = ExampleItem

    default_input_processor = MapCompose(lambda s: s.strip())

    default_output_processor = TakeFirst()

    description_out = Join()

3.spider的改造。star_turls变成了redis_key从redis中获得request，继承的scrapy.spider变成RedisSpider。

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):

    """Spider that reads urls from redis queue (myspider:start_urls)."""

    name = 'myspider_redis'

    redis_key = 'myspider:start_urls'

    def __init__(self, *args, **kwargs):

        # Dynamically define the allowed domains list.

        domain = kwargs.pop('domain', '')

        self.allowed_domains = filter(None, domain.split(','))

        super(MySpider, self).__init__(*args, **kwargs)

    def parse(self, response):

        return {

            'name': response.css('title::text').extract_first(),

            'url': response.url,

        }

四.启动爬虫：

$ scrapy crawl myspider

可以输入多个来观察多进程的效果。。打开了爬虫之后你会发现爬虫处于等待爬取的状态，是因为list此时为空。所以需要在redis控制台中添加启动地址,这样就可以愉快的看到所有的爬虫都动起来啦。

lpush mycrawler:start_urls http://www.***.com

redis数据库中可以看到如下三项，第一个为已过滤并下载的request，第二个公用item，第三个为待处理request。

Scrapy-redis改造scrapy实现分布式多进程爬取的更多相关文章

scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
python+BeautifulSoup+多进程爬取糗事百科图片
用到的库: import requests import os from bs4 import BeautifulSoup import time from multiprocessing impor ...
代理ip的使用以及多进程爬取
一.代理皮的简单使用简单的看一二例子即可 import requests #代理ip 高频的ip容易被封,所以使用ip代理 #免费代理 ip:www.goubanjia.com 快代理西祠代理 h ...
使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
python+正则+多进程爬取糗事百科图片
话不多说,直接上代码: # 需要的库 import requests import re import os from multiprocessing import Pool # 请求头 header ...
使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据
1 # 使用requests请求网页,爬取网页的内容 2 3 # 模拟使用进程池模拟多进程爬取网页获取数据,使用进程绑定的回调函数去处理数据 4 5 import requests 6 from mu ...
scrapy爬虫笔记(三)------写入源文件的爬取
开始爬取网页:(2)写入源文件的爬取为了使代码易于修改,更清晰高效的爬取网页,我们将代码写入源文件进行爬取. 主要分为以下几个步骤: 一.使用scrapy创建爬虫框架: 二.修改并编写源代码,确定我 ...
Scrapy实战篇（八）之爬取教育部高校名单抓取和分析
本节我们以网址https://daxue.eol.cn/mingdan.shtml为初始链接,爬取教育部公布的正规高校名单. 思路: 1.首先以上面的地址开始链接,抓取到下面省份对应的链接. 2.在解 ...

随机推荐

apache2.4配置多个端口对应多个目录
文件 /usr/local/apache/conf/extra/httpd-vhosts.conf 的内容如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 NameVir ...
linux下kermit工具的使用
1.环境: ubuntu16.04 2.背景: 想更换下位机内核 3.使用kermit进行串口传输举例:传输文件到下位机 2.1首先进入下位机的uboot 2.2 使用uboot自带的命令从串口接收 ...
HDU 2841 Visible Trees（容斥）题解
题意:有一块(1,1)到(m,n)的地,从(0,0)看能看到几块(如果两块地到看的地方三点一线,后面的地都看不到). 思路:一开始是想不到容斥...后来发现被遮住的地都有一个特点,若(a,b)有gcd ...
HDU 6171 Admiral（双向BFS+队列）题解
思路: 最大步骤有20,直接BFS会超时. 因为知道开始情况和结果所以可以用双向BFS,每个BFS规定最大步骤为10,这样相加肯定小于20.这里要保存每个状态搜索到的最小步骤,用Hash储存.当发现现 ...
POJ 3687 Labeling Balls（拓扑排序）题解
Description Windy has N balls of distinct weights from 1 unit to N units. Now he tries to label them ...
perl入门知识（2）
交互式编程你可以在命令行中使用 -e 选项来输入语句来执行代码,实例如下:$ perl -e 'print "Hello World\n"'输入以上命令,回车后,输出结果为:Hel ...
HDU 5961 传递
http://acm.hdu.edu.cn/showproblem.php?pid=5961 题意: 思路: 话不多说,直接暴力. #include<iostream> #include& ...
maven+nexus配置本地私有仓库
以下是settting.xml的配置 <?xml version="1.0" encoding="UTF-8"?> <settings> ...
智能边缘计算，让IoT有大智慧
丹棱君有话说:什么是智能边缘计算(Edge Computing)?别着急,它可是与你与我都有着千丝万缕的联系.物联网(IoT)的概念早已飞入寻常百姓家,在日常生活中的许多场景发挥着“智能”作用.比如, ...
使用innerHTML时要注意的一点
为某个元素添加内容时,使用的是document.getElementsByClassName,由于只有一个元素拥有这样的ClassName,就直接这样用,document.getElementsByC ...

Scrapy-redis改造scrapy实现分布式多进程爬取

Scrapy-redis改造scrapy实现分布式多进程爬取的更多相关文章

随机推荐

热门专题