scrapy 基础组件专题（六）：自定义命令

写好自己的爬虫项目之后，可以自己定制爬虫运行的命令。

一、单爬虫

在项目的根目录下新建一个py文件，如命名为start.py，写入如下代码：

from scrapy.cmdline import execute

if __name__ == "__main__":

    execute(["scrapy", "crawl", "chouti", "--nolog"])

运行start.py即可。

二、多爬虫运行

1、在spiders的同级目录创建文件夹，如commands；

2、在这个新建的文件夹下创建一个py文件，如命名为crawlall.py，编写代码：

from scrapy.commands import ScrapyCommand

class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):

        return "[options]"

    def short_desc(self):

        return "Run all of the spiders"  # 自定义命令描述

    def run(self, args, opts):

        spider_list = self.crawler_process.spiders.list()  # 获取爬虫列表

        for name in spider_list:  # 循环列表，对每个爬虫进行爬取。也可以对列表中的爬虫进行筛选，根据自己的需求爬取想要的

            self.crawler_process.crawl(name, **opts.__dict__)

        self.crawler_process.start()

3、在settings.py中添加配置：COMMANDS_MODULE = "项目名.目录名"

如：COMMANDS_MODULE = "my_scrapy.commands"

4、在终端输入：scrapy crawlall --nolog 即可运行（crawlall是步骤2中你新建的py文件名）

scrapy 基础组件专题（六）：自定义命令的更多相关文章

scrapy 基础组件专题（八）：scrapy-redis 框架分析
scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署. 有如下特征:  分布式爬取您可以启动多个spider工 ...
scrapy 基础组件专题（七）：scrapy 调度器、调度器中间件、自定义调度器
一.调度器配置 SCHEDULER = 'scrapy.core.scheduler.Scheduler' #表示scrapy包下core文件夹scheduler文件Scheduler类# 可以通过 ...
scrapy 基础组件专题（五）：自定义扩展
通过scrapy提供的扩展功能, 我们可以编写一些自定义的功能, 插入到scrapy的机制中一.编写一个简单的扩展我们现在编写一个扩展, 统计一共获取到的item的条数我们可以新建一个extens ...
scrapy 基础组件专题（二）：下载中间件
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 1.激活Downloader Mi ...
scrapy 基础组件专题（十二）：scrapy 模拟登录
1. scrapy有三种方法模拟登陆 1.1直接携带cookies 1.2找url地址,发送post请求存储cookie 1.3找到对应的form表单,自动解析input标签,自动解析post请求的u ...
scrapy 基础组件专题（一）：scrapy框架中各组件的工作流程
Scrapy 使用了 Twisted 异步非阻塞网络库来处理网络通讯,整体架构大致如下(绿线是数据流向): Scrapy主要包括了以下组件: 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事 ...
scrapy 基础组件专题（十四）：scrapy CookiesMiddleware源码
一 Scrapy框架--cookie的获取/传递/本地保存 1. 完成模拟登陆2. 登陆成功后提取出cookie,然后保存到本地cookie.txt文件中3. 再次使用时从本地的cookie.txt中 ...
scrapy 基础组件专题（九）：scrapy-redis 源码分析
下面我们来看看,scrapy-redis的每一个源代码文件都实现了什么功能,最后如何实现分布式的爬虫系统: connection.py 连接得配置文件 defaults.py 默认得配置文件 dupe ...
scrapy 基础组件专题（四）：信号运用
一.scrapy信号使用的简单实例 import scrapy from scrapy import signals from ccidcom.items import CcidcomItem cla ...

随机推荐

线性代数的28法则：作为程序员掌握这些API就够用了……
目录 1. 向量 & 矩阵 1.1. 问: np.ndarray 与 np.matrix 的区别 1.2. 向量空间 2. 算术运算 2.1. 为什么线性代数定义的乘积运算不按照加法的规则(按 ...
DML_Data Modification_INSERT
Data Modification (INSERT.DELETE.UPDATE.MERGE)之INSERT(基础知识,算是20年来第2次学习MSSQL吧,2005年折腾过一段时间的Oracle)INS ...
Android学习笔记添加ActionItem
ActionItem概念案例仿知乎首页的ActionBar 一.编写布局文件activity_main.xml <?xml version="1.0" encoding=& ...
本地yum源及更新
创建本地yumrepo源概述在生产环境中,由于网络环境隔离,很多内网机器,无法直接通过网络下载安装相关软件包,所以这个时候就需要在内网搭建一个yum源,然后通过下载将需要的软件包rpm下载下来,然 ...
Shiro简单加密服务
编码/加密在涉及到密码存储问题上,应该加密 / 生成密码摘要存储,而不是存储明文密码.比如之前的 600w csdn 账号泄露对用户可能造成很大损失,因此应加密 / 生成不可逆的摘要方式存储. Sh ...
说说TCP的三次握手和四次挥手
一.传输控制协议TCP简介 1.1 简介 TCP(Transmission Control Protocol) 传输控制协议,是一种面向连接的.可靠的.基于字节流的传输层通信协议. TCP是一种面 ...
第三章：软件也要拼脸蛋-UI 开发的点点滴滴
常用控件常用控件有:按钮 Button.文本显示框 TextView.图片显示框 ImageView.文本编辑框 EditText.进度条 ProgressBar.提示框 AlertDialog.进 ...
Java XML文件解析
四种生成和解析XML文档的方法详解(介绍+优缺点比较+示例) 蓝色字体内容由上一篇博文中补充进来的,写作风格比较好,大家有兴趣可以去查看原文众所周知,现在解析XML的方法越来越多,但主流的方法也就四 ...
ArrayList类的使用
ArrayList常用类方法 (1)添加元素 public boolean add(E element) 在集合末端添加一个元素 public void add(int index,E element ...
AbstractQueuedSynchronizer和ReentranLock基本原理
先把我主要学习参考的文章放上来先,这篇文章讲的挺好的,分析比较到位,最好是先看完这篇文章,在接下去看我写的.不然你会一脸懵逼,不过等你看完这篇文章,可能我的文章对你也用途不大了深入分析Abstrac ...

scrapy 基础组件专题（六）：自定义命令

scrapy 基础组件专题（六）：自定义命令的更多相关文章

随机推荐

热门专题