Scrapy定制命令开启爬虫

一、单爬虫运行

每次运行scrapy都要在终端输入命令太麻烦了

在项目的目录下创建manager.py（任意名称）

from scrapy.cmdline import execute

if __name__ == '__main__':

    execute(["scrapy", "crawl", "quote", "--nolog"])

二、所有爬虫运行

1、在spiders同级创建commands目录(任意)

2、在其中创建 crawlall.py 文件，决定命令的运行

from scrapy.commands import ScrapyCommand

class Command(ScrapyCommand):

    requires_project = True

    def syntax(self):

        return '[options]'

    def short_desc(self):

        return 'Runs all of the spiders'

    def run(self, args, opts):

        spider_list = self.crawler_process.spiders.list()

        for name in spider_list:

            self.crawler_process.crawl(name, **opts.__dict__)

        self.crawler_process.start()

3、配置文件

# COMMANDS_MODULE = '项目名称.目录名称'

COMMANDS_MODULE = 'toscrapy.commands'

4、manager.py

from scrapy.cmdline import execute

if __name__ == '__main__':

    execute(["scrapy", "crawlall", "--nolog"])

Scrapy定制命令开启爬虫的更多相关文章

Scrapy 框架中间件，信号，定制命令
中间件下载器中间件写中间件 from scrapy.http import HtmlResponse from scrapy.http import Request class Md1(objec ...
Scrapy入门到放弃01：开启爬虫2.0时代
前言 Scrapy is coming!! 在写了七篇爬虫基础文章之后,终于写到心心念念的Scrapy了.Scrapy开启了爬虫2.0的时代,让爬虫以一种崭新的形式呈现在开发者面前. 在18年实习的时 ...
Scrapy笔记10- 动态配置爬虫
Scrapy笔记10- 动态配置爬虫有很多时候我们需要从多个网站爬取所需要的数据,比如我们想爬取多个网站的新闻,将其存储到数据库同一个表中.我们是不是要对每个网站都得去定义一个Spider类呢? 其 ...
基于Scrapy的B站爬虫
基于Scrapy的B站爬虫最近又被叫去做爬虫了,不得不拾起两年前搞的东西. 说起来那时也是突发奇想,想到做一个B站的爬虫,然后用的都是最基本的Python的各种库. 不过确实,实现起来还是有点麻烦的 ...
【Python实战】Scrapy豌豆荚应用市场爬虫
对于给定的大量APP,如何爬取与之对应的(应用市场)分类.描述的信息?且看下面分解. 1. 页面分析当我们在豌豆荚首页搜索框输入微信后,会跳转到搜索结果的页面,其url为http://www.wan ...
Scrapy常用命令行工具
查看所有命令 scrapy -h 查看帮助信息 scapy --help 查看版本信息 (venv)ql@ql:~$ scrapy version Scrapy 1.1.2 (venv)ql@ql:~ ...
scrapy的命令行
scrapy --help 列出帮助信息以及常用命令scrapy version 列出scrapy版本scrapy version -v 列出详细的scrapy版本以及各组件信息 scrapy sta ...
在Scrapy项目【内外】使用scrapy shell命令抓取某网站首页的初步情况
Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0, 时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步. 本文展示使用在 Scrapy项目内.项目外scrap ...
『Scrapy』全流程爬虫demo
建立好的爬虫工程如下: item.py 它用来存储解析后的响应文件: # -*- coding: utf-8 -*- # Define here the models for your scraped ...

随机推荐

2018-2-13-win10-uwp-unix-timestamp-时间戳-转-DateTime
title author date CreateTime categories win10 uwp unix timestamp 时间戳转 DateTime lindexi 2018-2-13 17 ...
P1031 栈的序列
题目描述输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是否为该栈的弹出顺序.假设压入栈的所有数字均不相等.例如序列1,2,3,4,5是某栈的压入顺序,序列4,5,3,2,1是该压栈序 ...
P1015 高精度乘法
题目描述给你两个很大的正整数A和B,你需要计算他们的乘积. 输入格式输入一行包含两个正整数A和B,以一个空格分隔(A和B的位数都不超过 $10^4$) 输出格式输出一行包含一个整数,表示A和 ...
H3C 链路聚合配置举例
原生js重写each方法
js原生有个for-each方法,但是只能遍历数组不能遍历对象; jq有个$.each倒是可以遍历数组和对象,但是项目中如果不想用jq呢,我们就用原生来写一个吧. [12,23,34].forEach ...
【hdu 1850】Being a Good Boy in Spring Festival
Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submission(s) ...
CodeForces - 922D Robot Vacuum Cleaner （贪心）
Pushok the dog has been chasing Imp for a few hours already. Fortunately, Imp knows that Pushok is a ...
bash: : Too many levels of symbolic links
ln -s 时 bash: : Too many levels of symbolic links改为绝对路径,
Python安装jpype调用java，安装jaydebeapi通过jdbc连接数据库
pip install JPype1或下载JPype1-0.7.0.tar.gz包经常出现需要安装VC++服务等测试代码如下: # Author: zfh import jpype,os,time ...
elasticsearch基础知识杂记
日常工作中用到的ES相关基础知识和总结.不足之处请指正,会持续更新. 1.集群的健康状况为 yellow 则表示全部主分片都正常运行(集群可以正常服务所有请求),但是副本分片没有全部处在正常状态. ...

Scrapy定制命令开启爬虫

Scrapy定制命令开启爬虫的更多相关文章

随机推荐

热门专题