Scrapy 教程(四)-命令

scrapy 没有界面，需要命令行来操作。

非常简单，总共也就十四五个命令，分为全局命令和项目命令。

全局命令

在哪都能用

常用命令

scrapy startproject name    创建项目/工程

scrapy genspider taobao taobao.com    创建爬虫

不太常用

查看爬虫配置/参数

scrapy settings --get  DOWNLOAD_DELAY    下载延迟

scrapy settings --get  BOT_NAME    爬虫名字
## 在项目运行时，输出项目设定值，否则输出 scrapy 的默认值，所以他既是全局命令，也是项目命令

启动爬虫

scrapy runspider scrapy_cn.py        执行爬虫脚本

scrapy crawl  spider    [这个也是启动爬虫，是项目命令，需要创建工程]

下载源码

# 看看有没有异步之类的

scrapy fetch https://hao.360.com/?llqxqd

scrapy fetch https://hao.360.com/?llqxqd >E:/3.html    下载并保存源码(WINDOWS)

scrapy view https://hao.360.com/?llqxqd    下载并直接用浏览器打开

shell 工具

scrapy shell https://hao.360.com/?llqxqd

版本查看

scrapy version

scrapy bench 用于 benchmark 测试，测试 scrapy 在硬件上的效率。

项目命令

在项目目录才能用

scrapy crawl  spider         启动爬虫（需要进入app目录）

scrapy check                   检测爬虫

scrapy list                       显示有多少爬虫（以name为准）

命令行参数

为了增强scrapy的灵活性，在命令行中可以设置参数，这使得构建好的爬虫能够执行不同的任务。

实例代码

def start_requests(self):

        url = 'http://lab.scrapyd.cn/'

        tag = getattr(self, 'tag', None)  # 获取tag值，也就是爬取时传过来的参数

        if tag is not None:  　　　　　　　　# 判断是否存在tag，若存在，重新构造url

            url = url + 'tag/' + tag  　　 # 构造url若tag=爱情，url= "http://lab.scrapyd.cn/tag/爱情"

        yield scrapy.Request(url, self.parse)

命令行参数设置

scrapy crawl argsSpider -a tag=爱情

还有很多其他参数，不太常用，具体请百度。

Scrapy 教程(四)-命令的更多相关文章

手把手教从零开始在GitHub上使用Hexo搭建博客教程(四)-使用Travis自动部署Hexo(2)
前言前面一篇文章介绍了Travis自动部署Hexo的常规使用教程,也是个人比较推荐的方法. 前文最后也提到了在Windows系统中可能会有一些小问题,为了在Windows系统中也可以实现使用Trav ...
TFS(Team Foundation Server)敏捷使用教程(四)：工作项跟踪（1）
工作项跟踪(1) 可跟踪性是软件过程的重要能力,TFS主要是以工作项来实现过程的可跟踪性.曾有人问:"你们实际项目里的工作项是怎么样的?能不能让我们看看?"我也一直很好奇别的公司T ...
Laravel教程四：数据库和Eloquent
Laravel教程四:数据库和Eloquent 此文章为原创文章,未经同意,禁止转载. Eloquent Database 上一篇写了一些Laravel Blade的基本用法和给视图传递变量的几种方 ...
Scrapy的shell命令（转）
scrapy python MrZONT 2015年08月29日发布 ...
webpack4 系列教程(四): 单页面解决方案--代码分割和懒加载
本节课讲解webpack4打包单页应用过程中的代码分割和代码懒加载.不同于多页面应用的提取公共代码,单页面的代码分割和懒加载不是通过webpack配置来实现的,而是通过webpack的写法和内置函数实 ...
【转帖】Systemd 入门教程：命令篇
Systemd 入门教程:命令篇 Copy From http://www.ruanyifeng.com/blog/2016/03/systemd-tutorial-commands.html 感觉 ...
Miniconda安装scrapy教程
一.背景说明前两天想重新研究下Scrapy,当时的环境是PyCharm社区版+Python 3.7.使用pip安装一直报错 “distutils.errors.DistutilsPlatformEr ...
Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
Scrapy教程
Scrapy教程原文地址https://doc.scrapy.org/en/latest/intro/tutorial.html 此教程我们假设你已经装好了Scrapy,如果没有请查看安装指南.. ...

随机推荐

Java 数组复制之clone方法
一.源码 public class Test1 { public static void main(String[] args) { // Student[] arrs = new Student[] ...
linux RPM(红帽软件包管理器)和Yum软件仓库中常见的命令
RPM(红帽软件包管理器)常用命令安装软件:rpm -ivh filename.rpm 升级软件:rpm -Uvh filename.rpm 卸载软件:rpm -e filename.rpm 查询软 ...
Chrome开发者工具面板 F12 调试大全记录
面板上包含了Elements面板.Console面板.Sources面板.Network面板.Timeline面板.Profiles面板.Application面板.Security面板.Audits ...
Cassandra 数据一致性
基本概念一致性: 在分布式系统中的所有数据备份,在同一时刻是否同样的值 QUORUM: 是一个可以计算的数字,对数据一致性起重要作用 Node: 主要用来存储数据 Data Center: 数据中心 ...
２０１８０７０５　SSH，SSM
1.数据源切换2.数据库SQL server 2008R23.Herbernate,MyBaits, 框架spring mvc hibernate mybatis maven 管理登录 spring ...
BZOJ 1901 洛谷 P2617 ZOJ 2112 Dynamic Rankings
以下时空限制来自zoj Time limit 10000 ms Memory limit 32768 kB OS Linux Source Online Contest of Christopher' ...
Linux安装配置redis 、启动redis、redis设置密码
由于间隔时间较长.机器的环境不同等等原因,所以每次安装redis的时候总是不那么顺利,所以这次我要做个笔记文章大部分内容源于https://blog.csdn.net/gisredevelopmen ...
测试相关shell命令总结2——结构控制语句，命令行参数
1,shell 中单引号和双引号的区别,单引号不进行解释.双引号进行解释 1,在shell中进行数学运算,放在$和[]中 $[1+2] 有些很奇怪,在.sh文件中放在(())中貌似也能够进行数学运算. ...
nginx下的负载均衡
负载均衡应用场景: 普通web应用部署到多台应用服务器上,客户端通过访问应用服务器发送请求,最简单的就是n对1模式,n个客户端访问同一个应用服务器,这种情况当并发量大了,就无法应对,而且,如果只有一台 ...
2018-2019-2 网络对抗技术 20165220 Exp 9 Web安全基础
2018-2019-2 网络对抗技术 20165220 Exp 9 Web安全基础实验任务本实践的目标理解常用网络攻击技术的基本原理,做不少于7个题目,共3.5分.包括(SQL,XSS,CSRF) ...

Scrapy 教程(四)-命令

全局命令

项目命令

命令行参数

Scrapy 教程(四)-命令的更多相关文章

随机推荐

热门专题