scrapy框架中多个spider,tiems,pipelines的使用及运行方法

用scrapy只创建一个项目，创建多个spider，每个spider指定items,pipelines.启动爬虫时只写一个启动脚本就可以全部同时启动。

本文代码已上传至github,链接在文未。

一，创建多个spider的scrapy项目

scrapy startproject mymultispider

cd mymultispider

scrapy genspider myspd1 sina.com.cn

scrapy genspider myspd2 sina.com.cn

scrapy genspider myspd3 sina.com.cn

二，运行方法

1.为了方便观察，在spider中分别打印相关信息

import scrapy

class Myspd1Spider(scrapy.Spider):

    name = 'myspd1'

    allowed_domains = ['sina.com.cn']

    start_urls = ['http://sina.com.cn/']

    def parse(self, response):

        print('myspd1')

其他如myspd2,myspd3分别打印相关内容。

2.多个spider运行方法有两种，第一种写法比较简单，在项目目录下创建crawl.py文件，内容如下

from scrapy.crawler import CrawlerProcess

from scrapy.utils.project import get_project_settings

process = CrawlerProcess(get_project_settings())

# myspd1是爬虫名

process.crawl('myspd1')

process.crawl('myspd2')

process.crawl('myspd3')

process.start()

为了观察方便，可在settings.py文件中限定日志输出

LOG_LEVEL = 'ERROR'

右键运行此文件即可，输出如下

3.第二种运行方法为修改crawl源码，可以从官方的github中找到：https://github.com/scrapy/scrapy/blob/master/scrapy/commands/crawl.py

在spiders目录的同级目录下创建一个mycmd目录，并在该目录中创建一个mycrawl.py,将crawl源码复制进来，修改其中的run方法，改为如下内容

def run(self, args, opts):

    # 获取爬虫列表

    spd_loader_list = self.crawler_process.spider_loader.list()

    # 遍历各爬虫

    for spname in spd_loader_list or args:

        self.crawler_process.crawl(spname, **opts.spargs)

        print("此时启动的爬虫：" + spname)

    self.crawler_process.start()

在该文件的目录下创建初始化文件__init__.py

完成后机构目录如下

使用命令启动爬虫

scrapy mycrawl --nolog

输出如下：

三，指定items

1,这个比较简单，在items.py文件内创建相应的类，在spider中引入即可

items.py

import scrapy

class MymultispiderItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    pass

class Myspd1spiderItem(scrapy.Item):

    name = scrapy.Field()

class Myspd2spiderItem(scrapy.Item):

    name = scrapy.Field()

class Myspd3spiderItem(scrapy.Item):

    name = scrapy.Field()

spider内，例myspd1

# -*- coding: utf-8 -*-

import scrapy

from mymultispider.items import Myspd1spiderItem

class Myspd1Spider(scrapy.Spider):

    name = 'myspd1'

    allowed_domains = ['sina.com.cn']

    start_urls = ['http://sina.com.cn/']

    def parse(self, response):

        print('myspd1')

        item = Myspd1spiderItem()

        item['name'] = 'myspd1的pipelines'

        yield item

四，指定pipelines

1,这个也有两种方法，方法一，定义多个pipeline类：

pipelines.py文件内：

class Myspd1spiderPipeline(object):

    def process_item(self,item,spider):

        print(item['name'])

        return item

class Myspd2spiderPipeline(object):

    def process_item(self,item,spider):

        print(item['name'])

        return item

class Myspd3spiderPipeline(object):

    def process_item(self,item,spider):

        print(item['name'])

        return item

1.1settings.py文件开启管道

ITEM_PIPELINES = {

   # 'mymultispider.pipelines.MymultispiderPipeline': 300,

   'mymultispider.pipelines.Myspd1spiderPipeline': 300,

   'mymultispider.pipelines.Myspd2spiderPipeline': 300,

   'mymultispider.pipelines.Myspd3spiderPipeline': 300,

}

1.2spider中设置管道，例myspd1

# -*- coding: utf-8 -*-

import scrapy

from mymultispider.items import Myspd1spiderItem

class Myspd1Spider(scrapy.Spider):

    name = 'myspd1'

    allowed_domains = ['sina.com.cn']

    start_urls = ['http://sina.com.cn/']

    custom_settings = {

        'ITEM_PIPELINES': {'mymultispider.pipelines.Myspd1spiderPipeline': 300},

    }

    def parse(self, response):

        print('myspd1')

        item = Myspd1spiderItem()

        item['name'] = 'myspd1的pipelines'

        yield item

指定管道的代码

custom_settings = {

        'ITEM_PIPELINES': {'mymultispider.pipelines.Myspd1spiderPipeline': 300},

    }

1.3运行crawl文件，运行结果如下

2，方法二，在pipelines.py文件内判断是哪个爬虫的结果

2.1 pipelines.py文件内

class MymultispiderPipeline(object):

    def process_item(self, item, spider):

        if spider.name == 'myspd1':

            print('myspd1的pipelines')

        elif spider.name == 'myspd2':

            print('myspd2的pipelines')

        elif spider.name == 'myspd3':

            print('myspd3的pipelines')

        return item

2.2 settings.py文件内只开启MymultispiderPipeline这个管道文件

ITEM_PIPELINES = {

   'mymultispider.pipelines.MymultispiderPipeline': 300,

   # 'mymultispider.pipelines.Myspd1spiderPipeline': 300,

   # 'mymultispider.pipelines.Myspd2spiderPipeline': 300,

   # 'mymultispider.pipelines.Myspd3spiderPipeline': 300,

}

2.3spider中屏蔽掉指定pipelines的相关代码

# -*- coding: utf-8 -*-

import scrapy

from mymultispider.items import Myspd1spiderItem

class Myspd1Spider(scrapy.Spider):

    name = 'myspd1'

    allowed_domains = ['sina.com.cn']

    start_urls = ['http://sina.com.cn/']

    # custom_settings = {

    #     'ITEM_PIPELINES': {'mymultispider.pipelines.Myspd1spiderPipeline': 300},

    # }

    def parse(self, response):

        print('myspd1')

        item = Myspd1spiderItem()

        item['name'] = 'myspd1的pipelines'

        yield item

2.4 运行crawl.py文件，结果如下

代码git地址：https://github.com/terroristhouse/crawler

python系列教程：

链接：https://pan.baidu.com/s/10eUCb1tD9GPuua5h_ERjHA

提取码：h0td

scrapy框架中多个spider,tiems,pipelines的使用及运行方法的更多相关文章

scrapy框架中Spiders用法
scrapy框架中Spiders用法 Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以 ...
Scrapy框架中的CrawlSpider
小思考:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二: ...
scrapy框架中Item Pipeline用法
scrapy框架中item pipeline用法当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的pyt ...
scrapy框架中Download Middleware用法
scrapy框架中Download Middleware用法 Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给sp ...
爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
Scrapy框架中选择器的用法【转】
Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法请给作者点赞 --> 原文链接 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpa ...
scrapy框架中选择器的用法
scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中 ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...

随机推荐

Codeforces Choosing Laptop 题解
这题实在是太水了,具体看注释蒟蒻的方法是一边找过时的电脑一边比大小蒟蒻不才,只会C++ 其实还会free basic,但它已经过时了附: 本题洛谷网址 Codeforces网址希望蒟蒻的题解能 ...
Qt Installer Framework翻译(6-0)
Qt安装程序框架示例这些示例说明了如何使用组件脚本来自定义安装程序. Change Installer UI Example 使用组件脚本修改安装程序UI. Component Error Exam ...
Bootstrap Table的使用详解
Bootstrap Table是基于 Bootstrap 的 jQuery 表格插件,通过简单的设置,就可以拥有强大的单选.多选.排序.分页,以及编辑.导出.过滤(扩展)等等的功能.接下来我们来介绍B ...
异步查询转同步加redis业务实现的BUG分享
在最近的性能测试中,某一个查询接口指标不通过,开发做了N次优化,最终的优化方案如下:异步查询然后转同步,再加上redis缓存.此为背景. 在测试过程中发现一个BUG:同样的请求在第一次查询结果是OK的 ...
jenkins集成jmeter-进阶篇
1.gitlab自动触发jenkins构建 1⃣️安装插件: 2⃣️新建工程,设置git url,build when a change is pushed auto.sh /bin/sh echo ...
GitHub Top 微信小程序——在家中憋了几天写点代码吧
GitHub Top 本项目为 GitHub 热点项目微信小程序客户端,首页仅推荐一个热点项目,这个项目往往是社会热门事件所催生的一个项目,如 996.ICU.wuhan2020,所推荐项目标准为:积 ...
c++中重载运算符
重载运算符 1,成员函数运算符运算符重载为类的成员函数一般格式如下 <函数类型> operator <运算符> (参数表) {函数体} 调用成员函数运算符如下 <对象名 ...
springmvc中applicationapplicationContext头部代码
<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.spr ...
SQL Server 2012 安装完成后，无法通过 sa账号登录
1.打开 SQL server configuration manager 2.打开 SQLserver 网络配置打开 SQLSERVER的协议 3.右击 TCP/IP协议,选择 IPALL ,在 ...
《Python学习手册第五版》 -第1章问答环节
第一章的主要内容是解疑答惑的,这个部分也是很适合初学者的,回答了大部分初学者所关注的问题 1.为什么使用Python,或者说Python的优点, 作者是分为两个部分来谈的,人们使用中的经验总结以及Py ...

scrapy框架中多个spider,tiems,pipelines的使用及运行方法

scrapy框架中多个spider,tiems,pipelines的使用及运行方法的更多相关文章

随机推荐

热门专题