python爬虫scrapy之如何同时执行多个scrapy爬行任务

背景：

　　刚开始学习scrapy爬虫框架的时候，就在想如果我在服务器上执行一个爬虫任务的话，还说的过去。但是我不能每个爬虫任务就新建一个项目吧。例如我建立了一个知乎的爬行任务，但是我在这个爬行任务中，写了多个spider，重要的是我想让他们同时运行，怎么办？

小白解决办法：

　　1、在spiders同目录下新建一个run.py文件，内容如下（列表里面最后可以加上参数，如--nolog）

　　2、小白想了（当时的我），这样也行，mygod，那我岂不是多写几行就行就行了么，结果（结果白痴了），小白又想，那加个while循环，把爬虫名字都写入一个列表，这样循环拿到每个spiders的name，结果更惨。

　　3、下面命令只限于，快速调试的作用或一个项目下单个spider的爬行任务。

from scrapy.cmdline import execute

execute(['scrapy','crawl','httpbin'])

通过学习才知道原来是这样子：

　　1、在spiders同级创建任意目录，如：commands

　　2、在其中创建 crawlall.py 文件（此处文件名就是自定义的命令）

crawlall.py

from scrapy.commands import ScrapyCommand

from scrapy.utils.project import get_project_settings

class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):

        return '[options]'

    def short_desc(self):

        return 'Runs all of the spiders'

    def run(self, args, opts):

        spider_list = self.crawler_process.spiders.list()

        for name in spider_list:

            self.crawler_process.crawl(name, **opts.__dict__)

        self.crawler_process.start()

　　3、到这里还没完，settings.py配置文件还需要加一条。

　　COMMANDS_MODULE = ‘项目名称.目录名称’　

COMMANDS_MODULE = 'zhihuuser.commands'

　　4、那么问题来了，如果我在spiders写了多个爬行任务，我上面说了这么多，我最终需要怎么执行，so easy！你可以直接把下面这个命令放到计划任务里面，就行了。

scrapy crawlall

python爬虫scrapy之如何同时执行多个scrapy爬行任务的更多相关文章

Python爬虫开发【第1篇】【Scrapy框架】
Scrapy 框架介绍 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架. Srapy框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以 ...
Python爬虫开发【第1篇】【Scrapy入门】
Scrapy的安装介绍 Scrapy框架官方网址:http://doc.scrapy.org/en/latest Scrapy中文维护站点:http://scrapy-chs.readthedocs. ...
Python爬虫开发【第1篇】【Scrapy shell】
Scrapy Shell Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据 ...
python爬虫系列：（一）、安装scrapy
1.安装python 下载好安装包,一路next安装即可 2.把python和pip加入环境变量. 我的电脑----->右键“属性”------>“高级系统设置”------->“环 ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫框架Scrapy获得定向打击批量招聘信息
爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这样的说法不够专业,更专业的描写叙述就是.抓取特定站点网页的HTML数据.只是因为一个站点的网页非常多,而我们又不可能事先知道全部网页的URL地址, ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...

随机推荐

js中arguments详解
在js中一切都是对象,连函数也是对象,函数名其实是引用函数定义对象的变量. 什么是arguments? 这个函数体内的arguments非常特殊,实际上是所在函数的一个内置类数组对象,可以用数组的[i ...
redis的过期时间和过期删除机制
一:设置过期时间 redis有四种命令可以用于设置键的生存时间和过期时间: EXPIRE <KEY> <TTL> : 将键的生存时间设为 ttl 秒 PEXPIRE <K ...
google colab 使用指南
重启colab !kill - - 输出ram信息 !cat /proc/meminfo 输出cpu信息 !cat /proc/cpuinfo 更改工作文件夹一般,当你运行下面的命令: !ls 你会 ...
ddt框架优化(生成html报告注释内容传变量)
https://blog.csdn.net/weixin_33923148/article/details/86017742 按要求修改后发现注释只传值第一个变量这是因为 ddt数据驱动生成ht ...
matlab 整局-部视知觉实验（读取excel点阵设计图替换数据）
-------给我那编程盲的女盆友,我怎么感觉是我选了一门课???做了这么多次作业,还是整理出来吧,要知道双鸭山大学心理系单身妹子还是很多啊. 整体-局部范式是心理学的经典实验之一.请尝试利用 MAT ...
Spring MVC Content Negotiation 转载
Spring MVC Content Negotiation 2017年11月15日 00:21:21 carl-zhao 阅读数:2983 Spring MVC有两种方式生成output的方法: ...
>/dev/null 2>&1和2>&1 >/dev/null区别
>/dev/null 2>&1和2>&1 >/dev/null区别 >/dev/null 2>&1 //会将标准输出,错误输出都重定向至/d ...
[MicroPython]TPYBoard v102炫彩跑马灯WS2812B
一.实验目的了解ws2812b的工作原理学习ws2812b的驱动方法二.实验器材 TPYBoard v102 1块 ws2812b RGB-Ring-8 1个 micro USB数据线 1条杜 ...
Python学习总结 10 自动化测试Selenium2
一, 配置 Selenium2 1 Selenium是什么? Selenium是一个用于Web应用程序测试的工具.Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括I ...
java单例模式总结
目录一. 饿汉模式(静态初始化) 二.双重检查锁(dcl) 三. 延迟占位类四.枚举实现最后常见安全的单例实现代码和自己的一点理解. 一. 饿汉模式(静态初始化) class Singleto ...

python爬虫scrapy之如何同时执行多个scrapy爬行任务

python爬虫scrapy之如何同时执行多个scrapy爬行任务的更多相关文章

随机推荐

热门专题