scrapy shell命令的【选项】简介

在使用scrapy shell测试某网站时，其返回400 Bad Request，那么，更改User-Agent请求头信息再试。

DEBUG: Crawled () <GET https://www.某网站.com> (referer: None)

可是，怎么更改呢？

使用scrapy shell --help命令查看其用法：

Options中没有找到相应的选项；

Global Options呢？里面的--set/-s命令可以设置/重写配置。

使用-s选项更改了User-Agent配置，再测试某网站，成功返回页面（状态200）：

...>scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" https://www.某网站.com

2018-07-15 12:11:00 [scrapy.core.engine] DEBUG: Crawled () <GET https://www.某网站.com> (referer: None)

--------翻篇--------

说明，其实，这个-s的用法并非自己通过上面步骤知道的（之前一直关注Options下面的选项，忽略了Global Options，觉得没用吗？），而是通过网页搜索，然后见到下面的文章：

scrapy shell 用法（慢慢更新...）原文作者：木木&侃侃（一位园友，原文链接）

更进一步：在Scrapy的源码中会对相关配置项有更详细的信息。

打开C:\Python36\Lib\site-packages\scrapy\commands目录，可以在里面看到各种内置的Scrapy命令的Python文件，其中，shell.py正是scrapy shell命令的源文件。

从源码可以看到，里面定义了Command类——继承了scrapy.commands.ScrapyCommand，在Command的add_options函数中，添加了三个选项：

-c：evaluate the code in the shell, print the result and exit（执行一段解析代码？）

--spider：use this spider

--no-redirect：do not handle HTTP 3xx status codes and print response as-is

没有发现-s选项，那么，-s选项来自哪儿呢？看看scrapy.commands.ScrapyCommand的源码（__init__.py文件中）。可以发现，其下的add_options函数中添加了-s选项：

 def add_options(self, parser):

     """

     Populate option parse with options available for this command

     """

     group = OptionGroup(parser, "Global Options")

     group.add_option("--logfile", metavar="FILE",

         help="log file. if omitted stderr will be used")

     group.add_option("-L", "--loglevel", metavar="LEVEL", default=None,

         help="log level (default: %s)" % self.settings['LOG_LEVEL'])

     group.add_option("--nolog", action="store_true",

         help="disable logging completely")

     group.add_option("--profile", metavar="FILE", default=None,

         help="write python cProfile stats to FILE")

     group.add_option("--pidfile", metavar="FILE",

         help="write process ID to FILE")

     group.add_option("-s", "--set", action="append", default=[], metavar="NAME=VALUE",

         help="set/override setting (may be repeated)")

     group.add_option("--pdb", action="store_true", help="enable pdb on failure")

     parser.add_option_group(group)

好了，源头找到了。

可是，之前在寻找方法时发现，scrapy crawl、runspider提供了-a选项来设置/重写配置，可是，已经有了-s选项了，为何还要增加-a选项呢？两者有什么区别？

从其解释来看，-a选项仅仅修改spider的参数，而-s可以设置的范围更广泛，包括官文Settings中所有配置吧！（未测试）

parser.add_option("-a", dest="spargs", action="append", default=[], metavar="NAME=VALUE",
　　　　　　　　help="set spider argument (may be repeated)")

--------翻篇--------

实践1：scrapy shell的-c选项

(env0626) D:\ws\env0626\ws>scrapy shell -c "response.xpath('//title/text()')" https://www.baidu.com

输出：

2018-07-15 13:07:23 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.baidu.com> (referer: None)
[<Selector xpath='//title/text()' data='百度一下，你就知道'>]

实践2：scrapy runspider -a选项和-s选项修改User-Agent请求头

 # -*- coding: utf-8 -*-

 import scrapy

 class MousiteSpider(scrapy.Spider):

     name = 'mousite'

     allowed_domains = ['www.zhihu.com']

     start_urls = ['https://www.zhihu.com/']

     def parse(self, response):

         yield response.xpath('//title/text()')

测试结果：-a选项无法获取数据，返回400；-s选项可以，返回200；

-a选项：

(env0626) D:\ws\env0626\ws>scrapy runspider -a USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" mousite.py

DEBUG: Crawled (400) <GET https://www.zhihu.com/> (referer: None)

INFO: Ignoring response <400 https://www.zhihu.com/>: HTTP status code is not handled or not allowed

-s选项：

(env0626) D:\ws\env0626\ws>scrapy runspider -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" mousite.py

DEBUG: Crawled (200) <GET https://www.zhihu.com/> (referer: None)

{'title': [<Selector xpath='//title/text()' data='知乎 - 发现更大的世界'>]}

看来，两者还是有差别的。

注意，上面的试验都是在Scrapy项目外执行（）。

scrapy shell命令的【选项】简介的更多相关文章

在Scrapy项目【内外】使用scrapy shell命令抓取某网站首页的初步情况
Windows 10家庭中文版,Python 3.6.3,Scrapy 1.5.0, 时隔一月,再次玩Scrapy项目,希望这次可以玩的更进一步. 本文展示使用在 Scrapy项目内.项目外scrap ...
Linux下shell命令执行过程简介
Linux是如何寻找命令路径的:http://c.biancheng.net/view/5969.html Linux上命令运行的基本过程:https://blog.csdn.net/hjx5200/ ...
安装ipython，使用scrapy shell来验证xpath选择的结果 | How to install iPython and how does it work with Scrapy Shell
1. scrapy shell 是scrapy包的一个很好的交互性工具,目前我使用它主要用于验证xpath选择的结果.安装好了scrapy之后,就能够直接在cmd上操作scrapy shell了. 具 ...
scrapy shell 用法（慢慢更新...）
scrapy shell 命令 1.scrapy shell url #url指你所需要爬的网址 2.有些网址数据的爬取需要user-agent,scrapy shell中可以直接添加头文件, 第①种 ...
Scrapy的shell命令（转）
scrapy python MrZONT 2015年08月29日发布 ...
Scrapy命令行工具简介
Windows 10家庭中文版,Python 3.6.4,virtualenv 16.0.0,Scrapy 1.5.0, 在最初使用Scrapy时,使用编辑器或IDE手动编写模块来创建爬虫(Spide ...
4-3 调试代码命令 scrapy shell http://blog.jobbole.com/114496/(入口url)
调试代码命令 scrapy shell http://blog.jobbole.com/114496/(入口url)
linux + shell 命令等
Linux命令[注意:建议用UltraEdit打开] 一.文件处理命令 1.命令格式与目录处理命令 ls –a[查看隐藏文件] ls –l[查看文件信息长格式显示] ls –d[查看指定目录的详细信息 ...
VxWorks操作系统shell命令与调试方法总结
VxWorks下的调试手段主要介绍在Tornado集成开发环境下的调试方法,和利用支撑定位问题的步骤.思路. 1 Tornado的调试工具嵌入式实时操作系统VxWorks和集成开发 ...

随机推荐

WEB入门.八背景特效
学习内容 background属性 CSS Sprite 技术滑动门技术能力目标使用background设置网页背景使用Sprites制作平滑投票特效使用滑动门技术实现Tab菜单本章简介 ...
【DP】【P4539】 [SCOI2006]zh_tree
Description 张老师根据自己工作的需要,设计了一种特殊的二叉搜索树. 他把这种二叉树起名为zh_tree,对于具有n个结点的zh_tree,其中序遍历恰好为(1,2,3,-,n),其中数字1 ...
golang管道
golang中的channel channel用于goroutine之间的通信如果不用channel,使用共享全局变量的方式,需要加锁 // synchornized 同步 // golang中的 ...
Chapter 7(图)
1.Prim算法生成最小生成树 //Prim算法生成最小生成树 void MiniSpanTree_Prim(MGraph G) { int min,i,j,k; int adjvex[MAXVEX] ...
go语言从零学起(二)--list循环删除元素(转载)
本篇系转载在使用go的container/list的package时,你可能会无意间踩一个小坑,那就是list的循环删除元素. list删除元素,直观写下来的代码如下: package main i ...
Hadoop部署方式-伪分布式(Pseudo-Distributed Mode)
Hadoop部署方式-伪分布式(Pseudo-Distributed Mode) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.下载相应的jdk和Hadoop安装包 JDK:h ...
JS正则表达式验证手机号和邮箱
一.验证手机号 function isPoneAvailable(poneInput) { var myreg=/^[1][3,4,5,7,8][0-9]{9}$/; if (!myreg.test( ...
grep与正则表达式详解和实例
转载自:http://www.jb51.net/article/31207.htm grep 工具,以前介绍过. grep -[acinv] '搜索内容串' filename -a 以文本文件方式搜索 ...
windows查找端口占用/ 终结端口占用 ------------windows小技巧
前沿我是一名小程序员,经常通过一些类似tomcat,jettry 等服务器工具调试项目.有时候莫名其妙的就会出现程序关闭不正常的情况!去查端口又死活找不到!最后只能重启电脑后面,在网上查了一些 ...
bzoj千题计划162：bzoj2006: [NOI2010]超级钢琴
http://www.lydsy.com/JudgeOnline/problem.php?id=2006 输出最大的k个 sum[r]-sum[l-1] (L<=r-l+1<=R) 之和 ...

scrapy shell命令的【选项】简介

scrapy shell命令的【选项】简介的更多相关文章

随机推荐

热门专题