scrapy框架自定制命令

写好自己的爬虫项目之后，可以自己定制爬虫运行的命令。

一、单爬虫

在项目的根目录下新建一个py文件，如命名为start.py，写入如下代码：

from scrapy.cmdline import execute

if __name__ == "__main__":

    execute(["scrapy", "crawl", "chouti", "--nolog"])

运行start.py即可。

二、多爬虫运行

1、在spiders的同级目录创建文件夹，如commands；

2、在这个新建的文件夹下创建一个py文件，如命名为crawlall.py，编写代码：

from scrapy.commands import ScrapyCommand

class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):

        return "[options]"

    def short_desc(self):

        return "Run all of the spiders"  # 自定义命令描述

    def run(self, args, opts):

        spider_list = self.crawler_process.spiders.list()  # 获取爬虫列表

        for name in spider_list:  # 循环列表，对每个爬虫进行爬取。也可以对列表中的爬虫进行筛选，根据自己的需求爬取想要的

            self.crawler_process.crawl(name, **opts.__dict__)

        self.crawler_process.start()

3、在settings.py中添加配置：COMMANDS_MODULE = "项目名.目录名"

如：COMMANDS_MODULE = "myspider.spiders.commands"

4、在终端输入：scrapy crawlall --nolog 即可运行（crawlall是步骤2中你新建的py文件名）

目录结构

 └─myspider

        │  items.py

        │  middlewares.py

        │  pipelines.py

        │  settings.py

        │  __init__.py

        │

        ├─spiders

        │  │  zhihu.py

        │  │  __init__.py

        │  │

        │  ├─commands

        │  │  │  crawlall.py

        │  │  │

        │  │  └─__pycache__

        │  │          crawlall.cpython-36.pyc

        │  │

        │  └─__pycache__

        │          zhihu.cpython-36.pyc

        │          __init__.cpython-36.pyc

        │

        └─__pycache__

                items.cpython-36.pyc

                pipelines.cpython-36.pyc

                settings.cpython-36.pyc

                __init__.cpython-36.pyc

scrapy框架自定制命令的更多相关文章

scrapy之自定制命令
写好自己的爬虫项目之后,可以自己定制爬虫运行的命令. 一.单爬虫在项目的根目录下新建一个py文件,如命名为start.py,写入如下代码: from scrapy.cmdline import ex ...
爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...
Scrapy 框架总结
总结: 1.中间件:下载中间件(拦截请求和响应) - process_request: - prceess_response: - process_exception: - 请求: - UA伪装: - ...
scrapy框架的解析
1,scrapy框架的官网:https://scrapy.org/ 什么是scrapy框架: scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用内框架,非常出名,所谓框架就是一个已经继承 ...
Scrapy 框架中间件，信号，定制命令
中间件下载器中间件写中间件 from scrapy.http import HtmlResponse from scrapy.http import Request class Md1(objec ...
Scrapy框架的命令行详解【转】
Scrapy框架的命令行详解请给作者点赞 --> 原文链接这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目 scrapy startproject 项目名例子如下: loca ...
scrapy框架的命令行解释
scrapy框架的命令解释创建爬虫项目 scrapy startproject 项目名例子如下: scrapy startproject test1 这个时候爬虫的目录结构就已经创建完成了,目录结构 ...
Scrapy爬虫框架与常用命令
07.08自我总结一.Scrapy爬虫框架大体框架 2个桥梁二.常用命令全局命令 startproject 语法:scrapy startproject <project_name> ...
Python scrapy框架
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...

随机推荐

hdu 2181.。。。
哈密顿绕行世界问题 Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total S ...
Java QuickSelect
Java QuickSelect /** * <html> * <body> * <P> Copyright 1994-2018 JasonInternationa ...
<a>的javascript+jquery编程实例之删除(定位节点与事件绑定)
相关jquery方法 parent(), remove() //上传图片 article_create.js article_edit.js function uploadAttachment() { ...
jQuery的淡入和淡出简单介绍
在jQuery中的一些特效中,可以通过四个方法来实现元素的淡入淡出,这四个方法分别是:fadeIn().fadeOut().fadeToggle() 以及 fadeTo(),下面为分别为大家介绍各个方 ...
element-ui 表格错行
//表格错行 .el-table th.gutter { display: table-cell !important }
iOS NSNotification传递带参数的通知
普通的通知使用注册观察者 [[NSNotificationCenter defaultCenter] addObserver:self selector:@selector(getNotificat ...
python接口自动化1-requests-html支持JavaScript渲染页面
前言 requests虽好,但有个遗憾,它无法加载JavaScript,当访问一个url地址的时候,不能像selenium一样渲染整个html页面出来.requests-html终于可以支持JavaS ...
Django之模型层2
多表操作创建模型实例:我们来假定下面这些概念,字段和关系作者模型:一个作者有姓名和年龄. 作者详细模型:把作者的详情放到详情表,包含生日,手机号,家庭住址等信息.作者详情模型和作者模型之间是一对 ...
JavaScript（ES6之前）数组方法总结
一.数组的创建 1.使用 Array 构造函数 var arr1 = new Array(); // 创建一个空数组 var arr2 = new Array(20); // 创建一个包含20项的数组 ...
git daemon 安装和使用
git daemon 安装和使用系统:Cent OS 8 安装 git 和 git daemon(不同系统有不同的安装命令) yum install -y git yum install -y gi ...

scrapy框架自定制命令

scrapy框架自定制命令的更多相关文章

随机推荐

热门专题