scrapy 基础组件专题（六）：自定义命令

写好自己的爬虫项目之后，可以自己定制爬虫运行的命令。

一、单爬虫

在项目的根目录下新建一个py文件，如命名为start.py，写入如下代码：

from scrapy.cmdline import execute

if __name__ == "__main__":

    execute(["scrapy", "crawl", "chouti", "--nolog"])

运行start.py即可。

二、多爬虫运行

1、在spiders的同级目录创建文件夹，如commands；

2、在这个新建的文件夹下创建一个py文件，如命名为crawlall.py，编写代码：

from scrapy.commands import ScrapyCommand

class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):

        return "[options]"

    def short_desc(self):

        return "Run all of the spiders"  # 自定义命令描述

    def run(self, args, opts):

        spider_list = self.crawler_process.spiders.list()  # 获取爬虫列表

        for name in spider_list:  # 循环列表，对每个爬虫进行爬取。也可以对列表中的爬虫进行筛选，根据自己的需求爬取想要的

            self.crawler_process.crawl(name, **opts.__dict__)

        self.crawler_process.start()

3、在settings.py中添加配置：COMMANDS_MODULE = "项目名.目录名"

如：COMMANDS_MODULE = "my_scrapy.commands"

4、在终端输入：scrapy crawlall --nolog 即可运行（crawlall是步骤2中你新建的py文件名）

scrapy 基础组件专题（六）：自定义命令的更多相关文章

scrapy 基础组件专题（八）：scrapy-redis 框架分析
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署. 有如下特征:  分布式爬取您可以启动多个spider工 ...
scrapy 基础组件专题（七）：scrapy 调度器、调度器中间件、自定义调度器
一.调度器配置 SCHEDULER = 'scrapy.core.scheduler.Scheduler' #表示scrapy包下core文件夹scheduler文件Scheduler类# 可以通过 ...
scrapy 基础组件专题（五）：自定义扩展
通过scrapy提供的扩展功能, 我们可以编写一些自定义的功能, 插入到scrapy的机制中一.编写一个简单的扩展我们现在编写一个扩展, 统计一共获取到的item的条数我们可以新建一个extens ...
scrapy 基础组件专题（二）：下载中间件
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 1.激活Downloader Mi ...
scrapy 基础组件专题（十二）：scrapy 模拟登录
1. scrapy有三种方法模拟登陆 1.1直接携带cookies 1.2找url地址,发送post请求存储cookie 1.3找到对应的form表单,自动解析input标签,自动解析post请求的u ...
scrapy 基础组件专题（一）：scrapy框架中各组件的工作流程
Scrapy 使用了 Twisted 异步非阻塞网络库来处理网络通讯,整体架构大致如下(绿线是数据流向): Scrapy主要包括了以下组件: 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事 ...
scrapy 基础组件专题（十四）：scrapy CookiesMiddleware源码
一 Scrapy框架--cookie的获取/传递/本地保存 1. 完成模拟登陆2. 登陆成功后提取出cookie,然后保存到本地cookie.txt文件中3. 再次使用时从本地的cookie.txt中 ...
scrapy 基础组件专题（九）：scrapy-redis 源码分析
下面我们来看看,scrapy-redis的每一个源代码文件都实现了什么功能,最后如何实现分布式的爬虫系统: connection.py 连接得配置文件 defaults.py 默认得配置文件 dupe ...
scrapy 基础组件专题（四）：信号运用
一.scrapy信号使用的简单实例 import scrapy from scrapy import signals from ccidcom.items import CcidcomItem cla ...

随机推荐

64位手机无法加载x5(libmttwebview.so is 32-bit instead of 64-bit)
x5内核暂时不提供64位的so文件,在64位手机上需要让AP以32位模式运行. 具体操作如下: 1.如果使用是Eclipse则需要将所有的.so文件都放置在so加载目录:lib/armeabi文件夹下 ...
[转] VMware中的Ubuntu无法通过桥接方式上网
遇到的问题:主机可以上网(使用了代理),VMware设置为桥接方式连网.在主机中可以ping通虚拟机,在虚拟机中也可以ping通主机,可是在虚拟机中始终连接不了因特网. 感谢刘洋同学的博文,“在桥接模 ...
求求你，别问了，Java字符串是不可变的
最近,又有好几个小伙伴问我这个问题:"二哥,为什么 Java 的 String 要设计成不可变的啊?"说实话,这也是一道非常经典的面试题,面试官超喜欢问.我之前写过这方面的文章,现 ...
简易的phpexcel导出柱状图
首先得把phpexcel扩展的源码拷贝到项目文件下下面是代码 /** 引入最重要的PHPExcel类库的入口文件 */ require(STK_PATH.'/class/stk/PHPExc ...
RabbitMQ：一、入门
消息中间件使用消息中间件的作用解耦削峰异步顺序保证冗余(存储) RabbitMQ的特点可靠性灵活的路由扩展性高可用多语言客户端插件机制多协议(主要还是AMQP) 相关概念 P ...
Redis SDS 深入一点，看到更多！
1.什么是SDS? Redis 自定的字符串存储结构,关于redis,你需要了解的几点!中我们对此有过简要说明. Redis 底层是用C语言编写的,可是在字符存储上,并未使用C原生的String类型, ...
网络虚拟化之linux虚拟网络基础
1 linux虚拟网络基础 1.1 Device 在linux里面devic(设备)与传统网络概念里的物理设备(如交换机.路由器)不同,Linux所说的设备,其背后指的是一个类似于数据结构.内核模块或 ...
SSM框架出现500的错误解决办法
1,先确认pom.xml中有没有导入项目依赖, 2,发现导入之后还是报500.点击File->Project Structure->Artifacts 点击SSM右键,选择put int ...
Web安全之验证码绕过
一,验证码绕过(on client) 首先让burpsuite处于抓包状态,打开pikachu的验证码绕过(on client)随意输入账号和密码,验证码先不输入,点击login,会提示验证码错误然 ...
什么才是市场急需的前端工程师？要价1.8W，HR不敢还嘴！
据统计,国外的前端开发人员和后端开发人员比例约1:1,但是在国内比例却在1:3以下, Web前端开发职位人才缺口巨大.前端工程师的发展之路十分有“钱”景. 每天,HR 群都有人在吐槽招不到前端工程师. ...

scrapy 基础组件专题（六）：自定义命令

scrapy 基础组件专题（六）：自定义命令的更多相关文章

随机推荐

热门专题