Scrapy 源代码分析系列－4 scrapy.commands 子包

子包scrapy.commands定义了在命令scrapy中使用的子命令(subcommand): bench, check, crawl, deploy, edit, fetch,

genspider, list, parse, runspider, settings, shell, startproject, version, view。所有的子命令模块都定义了一个继承自

类ScrapyCommand的子类Command。

首先来看一下子命令crawl, 该子命令用来启动spider。

1. crawl.py

关注的重点在方法run(self, args, opts):

 def run(self, args, opts):

         if len(args) < 1:

             raise UsageError()

         elif len(args) > 1:

             raise UsageError("running 'scrapy crawl' with more than one spider is no longer supported")

         spname = args[0]

         crawler = self.crawler_process.create_crawler()  # A

         spider = crawler.spiders.create(spname, **opts.spargs) # B

         crawler.crawl(spider) ＃ C

         self.crawler_process.start() # D

那么问题来啦，run接口方法是从哪里调用的呢? 让我们回到 Python.Scrapy.11-scrapy-source-code-analysis-part-1

中 "1.2 cmdline.py command.py" 关于"_run_print_help() "的说明。

A: 创建类Crawler对象crawler。在创建Crawler对象时, 同时将创建Crawler对象的实例属性spiders(SpiderManager)。如下所示:

 class Crawler(object):

     def __init__(self, settings):

         self.configured = False

         self.settings = settings

         self.signals = SignalManager(self)

         self.stats = load_object(settings['STATS_CLASS'])(self)

         self._start_requests = lambda: ()

         self._spider = None

         # TODO: move SpiderManager to CrawlerProcess

         spman_cls = load_object(self.settings['SPIDER_MANAGER_CLASS'])

         self.spiders = spman_cls.from_crawler(self)  # spiders 的类型是: SpiderManager

Crawler对象对应一个SpiderManager对象，而SpiderManager对象管理多个Spider。

B: 获取Sipder对象。

C: 为Spider对象安装Crawler对象。(为蜘蛛安装爬行器)

D: 类CrawlerProcess的start()方法如下:

     def start(self):

         if self.start_crawling():

             self.start_reactor()

     def start_crawling(self):

         log.scrapy_info(self.settings)

         return self._start_crawler() is not None

     def start_reactor(self):

         if self.settings.getbool('DNSCACHE_ENABLED'):

             reactor.installResolver(CachingThreadedResolver(reactor))

         reactor.addSystemEventTrigger('before', 'shutdown', self.stop)

         reactor.run(installSignalHandlers=False)  # blocking call

     def _start_crawler(self):

         if not self.crawlers or self.stopping:

             return

         name, crawler = self.crawlers.popitem()

         self._active_crawler = crawler

         sflo = log.start_from_crawler(crawler)

         crawler.configure()

         crawler.install()

         crawler.signals.connect(crawler.uninstall, signals.engine_stopped)

         if sflo:

             crawler.signals.connect(sflo.stop, signals.engine_stopped)

         crawler.signals.connect(self._check_done, signals.engine_stopped)

         crawler.start()  ＃ 调用类Crawler的start()方法

         return name, crawler

类Crawler的start()方法如下:

     def start(self):

         yield defer.maybeDeferred(self.configure)

         if self._spider:

             yield self.engine.open_spider(self._spider, self._start_requests()) # 和Engine建立了联系 （ExecutionEngine）

         yield defer.maybeDeferred(self.engine.start)

关于类ExecutionEngine将在子包scrapy.core分析涉及。

2. startproject.py

3. subcommand是如何加载的

在cmdline.py的方法execute()中有如下几行代码:

     inproject = inside_project()

     cmds = _get_commands_dict(settings, inproject)

     cmdname = _pop_command_name(argv)

_get_commands_dict():

 def _get_commands_dict(settings, inproject):

     cmds = _get_commands_from_module('scrapy.commands', inproject)

     cmds.update(_get_commands_from_entry_points(inproject))

     cmds_module = settings['COMMANDS_MODULE']

     if cmds_module:

         cmds.update(_get_commands_from_module(cmds_module, inproject))

     return cmds

_get_commands_from_module():

 def _get_commands_from_module(module, inproject):

     d = {}

     for cmd in _iter_command_classes(module):

         if inproject or not cmd.requires_project:

             cmdname = cmd.__module__.split('.')[-1]

             d[cmdname] = cmd()

     return d

To Be Continued

接下来解析settings相关的逻辑。Python.Scrapy.15-scrapy-source-code-analysis-part-5

Python.Scrapy.14-scrapy-source-code-analysis-part-4的更多相关文章

Memcached source code analysis (threading model)--reference
Look under the start memcahced threading process memcached multi-threaded mainly by instantiating mu ...
Golang Template source code analysis(Parse)
This blog was written at go 1.3.1 version. We know that we use template thought by followed way: fun ...
Memcached source code analysis -- Analysis of change of state--reference
This article mainly introduces the process of Memcached, libevent structure of the main thread and w ...
Apache Commons Pool2 源码分析 | Apache Commons Pool2 Source Code Analysis
Apache Commons Pool实现了对象池的功能.定义了对象的生成.销毁.激活.钝化等操作及其状态转换,并提供几个默认的对象池实现.在讲述其实现原理前,先提一下其中有几个重要的对象: Pool ...
Redis source code analysis
http://zhangtielei.com/posts/blog-redis-dict.html http://zhangtielei.com/assets/photos_redis/redis_d ...
linux kernel & source code analysis& hacking
https://kernelnewbies.org/ http://www.tldp.org/LDP/lki/index.html https://kernelnewbies.org/ML https ...
2018.6.21 HOLTEK HT49R70A-1 Source Code analysis
Cange note: “Reading TMR1H will latch the contents of TMR1H and TMR1L counter to the destination”? F ...
The Ultimate List of Open Source Static Code Analysis Security Tools
https://www.checkmarx.com/2014/11/13/the-ultimate-list-of-open-source-static-code-analysis-security- ...
Top 40 Static Code Analysis Tools
https://www.softwaretestinghelp.com/tools/top-40-static-code-analysis-tools/ In this article, I have ...
Source Code Reading for Vue 3: How does `hasChanged` work?
Hey, guys! The next generation of Vue has released already. There are not only the brand new composi ...

随机推荐

MapReduce、Hbase接口API实践
读取hdfs中文件并做处理,取出卡号,通过卡号连接hbase查询出对应客户号,写入redis,因为不用输出,所以不调用context.write方法,整个操作在一个map中便可完成 protected ...
JVM参数（二）参数分类和即时（JIT）编译器诊断
在这个系列的第二部分,我来介绍一下HotSpot JVM提供的不同类别的参数.我同样会讨论一些关于JIT编译器诊断的有趣参数. JVM 参数分类 HotSpot JVM 提供了三类参数.第一类包括了标 ...
EBS应用服务器启动指南
1.ssh应用服务器 applprod用户密码:*** 管理脚本在$ADMIN_SCRIPTS_HOME路径下 adstrtal.sh 启动所有服务,命令行为adstrtal.sh ...
outlook找不到文件Outlook.pst 如何启动
首先注明:这种情况在控制面板-邮件无法打开的情况下可以使用以下命令打开设置界面解决方法: 1. 开始 –> 运行 –> cmd 2. 在DOS下,用CD 切换到 Outlook.ex ...
TortoiseSVN 版本回滚
尝试用TortoiseSVN进行版本回滚,回滚到的版本和实际的内容有出入,可能是点了太多次给点乱了,囧~ 不过发现一个比较靠谱的方法,如下: 右键点击文件TortoiseSVN->showlog ...
使用GDB进行调试
下面是几篇非常好的GDB使用指南: http://www.cs.cmu.edu/~gilpin/tutorial/ http://oss.org.cn/ossdocs/gnu/linux/gdb.ht ...
'Invalid parameter not satisfying: body'
afnetwork图片上传的时候出错,出现错误 2015-11-09 15:47:59.086 videoPro[3207:132795] *** Assertion failure in -[AFS ...
[转载]: delphi中XLSReadWrite控件的使用(2)---delphi XE下安装
一.下载官方下载网址: http://www.axolot.com/components/download.htm 从这里可以下载到从Delphi5到DelphiXE全部支持的版本. 二.软件安装 ...
json格式的时间转换
//yyyy-MM-dd HH:mm:SS function JsonDateToDate(jsondate) { var date = new Date(parseInt(jsondate.repl ...
C++学习基础二——指针与引用的区别
一.指针: (1)如果对指针进行解引用操作赋值,改变的是指针所指向对象的值:(2)如果不对指针进行解引用操作赋值,则改变的是指针本身的值:(3)const指针本身的值不能修改,但是const指针所 ...