scrapy框架自定制命令

写好自己的爬虫项目之后，可以自己定制爬虫运行的命令。

一、单爬虫

在项目的根目录下新建一个py文件，如命名为start.py，写入如下代码：

from scrapy.cmdline import execute

if __name__ == "__main__":

    execute(["scrapy", "crawl", "chouti", "--nolog"])

运行start.py即可。

二、多爬虫运行

1、在spiders的同级目录创建文件夹，如commands；

2、在这个新建的文件夹下创建一个py文件，如命名为crawlall.py，编写代码：

from scrapy.commands import ScrapyCommand

class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):

        return "[options]"

    def short_desc(self):

        return "Run all of the spiders"  # 自定义命令描述

    def run(self, args, opts):

        spider_list = self.crawler_process.spiders.list()  # 获取爬虫列表

        for name in spider_list:  # 循环列表，对每个爬虫进行爬取。也可以对列表中的爬虫进行筛选，根据自己的需求爬取想要的

            self.crawler_process.crawl(name, **opts.__dict__)

        self.crawler_process.start()

3、在settings.py中添加配置：COMMANDS_MODULE = "项目名.目录名"

如：COMMANDS_MODULE = "myspider.spiders.commands"

4、在终端输入：scrapy crawlall --nolog 即可运行（crawlall是步骤2中你新建的py文件名）

目录结构

 └─myspider

        │  items.py

        │  middlewares.py

        │  pipelines.py

        │  settings.py

        │  __init__.py

        │

        ├─spiders

        │  │  zhihu.py

        │  │  __init__.py

        │  │

        │  ├─commands

        │  │  │  crawlall.py

        │  │  │

        │  │  └─__pycache__

        │  │          crawlall.cpython-36.pyc

        │  │

        │  └─__pycache__

        │          zhihu.cpython-36.pyc

        │          __init__.cpython-36.pyc

        │

        └─__pycache__

                items.cpython-36.pyc

                pipelines.cpython-36.pyc

                settings.cpython-36.pyc

                __init__.cpython-36.pyc

scrapy框架自定制命令的更多相关文章

scrapy之自定制命令
写好自己的爬虫项目之后,可以自己定制爬虫运行的命令. 一.单爬虫在项目的根目录下新建一个py文件,如命名为start.py,写入如下代码: from scrapy.cmdline import ex ...
爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...
Scrapy 框架总结
总结: 1.中间件:下载中间件(拦截请求和响应) - process_request: - prceess_response: - process_exception: - 请求: - UA伪装: - ...
scrapy框架的解析
1,scrapy框架的官网:https://scrapy.org/ 什么是scrapy框架: scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用内框架,非常出名,所谓框架就是一个已经继承 ...
Scrapy 框架中间件，信号，定制命令
中间件下载器中间件写中间件 from scrapy.http import HtmlResponse from scrapy.http import Request class Md1(objec ...
Scrapy框架的命令行详解【转】
Scrapy框架的命令行详解请给作者点赞 --> 原文链接这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目 scrapy startproject 项目名例子如下: loca ...
scrapy框架的命令行解释
scrapy框架的命令解释创建爬虫项目 scrapy startproject 项目名例子如下: scrapy startproject test1 这个时候爬虫的目录结构就已经创建完成了,目录结构 ...
Scrapy爬虫框架与常用命令
07.08自我总结一.Scrapy爬虫框架大体框架 2个桥梁二.常用命令全局命令 startproject 语法:scrapy startproject <project_name> ...
Python scrapy框架
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...

随机推荐

#448 div2 a Pizza Separation
A. Pizza Separation time limit per test1 second memory limit per test256 megabytes inputstandard inp ...
用 cabarc.exe 制作CAB(带子目录)
原文转自 https://blog.csdn.net/crab530143383/article/details/17308623 先下载cabarc.exe,makeCAB 假设cabarc.exe ...
linux的scp命令可以在linux服务器之间复制文件和目录
scp是secure copy的简写,用于在Linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器,而且scp传输是加密的.可能会稍微影响一下速度.当你服务器 ...
Java 之字符流
一.字符流当使用字节读取文本文件时,可能会有一个小问题,就是遇到中文字符时,可能不会显示完整的字符,那是因为一个中文字符可能占用多个字节存储.所以 Java 提供了一些字符类,以字符为单位读写数据, ...
Java 之字节输入流 [InputStream]
一.字节输入流 java.io.InputStream 抽象类是表示字节输入流的所有类的超类,可以读取字节信息到内存中. 它定义了字节输入流的基本共性功能方法. 共性方法: public void c ...
String.getBytes()方法中的中文编码问题
得到一个操作系统默认的编码格式的字节数组.这表示在不同的操作系统下,返回的东西不一样! byte[] a= "中".getBytes() String.getBytes(Strin ...
Java中异常关键字throw和throws使用方式的理解
Java中应用程序在非正常的情况下停止运行主要包含两种方式: Error 和 Exception ,像我们熟知的 OutOfMemoryError 和 IndexOutOfBoundsExceptio ...
SQL注入是什么？如何防止？
SQL注入是什么?如何防止? SQL注入是一种注入攻击,可以执行恶意SQL语句.下面本篇文章就来带大家了解一下SQL注入,简单介绍一下防止SQL注入攻击的方法,希望对大家有所帮助. 什么是SQL注入? ...
centos下shell脚本kill掉mysql锁表进程【笔记】
前几天发现服务器上的mysql出现锁表了,show processlist后发现好多都是因为写进session才锁表的,看到这个想起了会不会是硬盘空间不够了,马上查看了服务器硬盘空间,发现都100%了 ...
appium+python+iOS 环境搭建与使用中常见问题的解决方案链接
(1)WebDriverAgent 安装入门篇:https://www.cnblogs.com/zhanggui/p/9239827.html 重点摘要: 在WDA的Github上也给出了WDA的特性 ...

scrapy框架自定制命令

scrapy框架自定制命令的更多相关文章

随机推荐

热门专题