Scrapy 源代码分析系列－4 scrapy.commands 子包

子包scrapy.commands定义了在命令scrapy中使用的子命令(subcommand): bench, check, crawl, deploy, edit, fetch,

genspider, list, parse, runspider, settings, shell, startproject, version, view。所有的子命令模块都定义了一个继承自

类ScrapyCommand的子类Command。

首先来看一下子命令crawl, 该子命令用来启动spider。

1. crawl.py

关注的重点在方法run(self, args, opts):

 def run(self, args, opts):

         if len(args) < 1:

             raise UsageError()

         elif len(args) > 1:

             raise UsageError("running 'scrapy crawl' with more than one spider is no longer supported")

         spname = args[0]

         crawler = self.crawler_process.create_crawler()  # A

         spider = crawler.spiders.create(spname, **opts.spargs) # B

         crawler.crawl(spider) ＃ C

         self.crawler_process.start() # D

那么问题来啦，run接口方法是从哪里调用的呢? 让我们回到 Python.Scrapy.11-scrapy-source-code-analysis-part-1

中 "1.2 cmdline.py command.py" 关于"_run_print_help() "的说明。

A: 创建类Crawler对象crawler。在创建Crawler对象时, 同时将创建Crawler对象的实例属性spiders(SpiderManager)。如下所示:

 class Crawler(object):

     def __init__(self, settings):

         self.configured = False

         self.settings = settings

         self.signals = SignalManager(self)

         self.stats = load_object(settings['STATS_CLASS'])(self)

         self._start_requests = lambda: ()

         self._spider = None

         # TODO: move SpiderManager to CrawlerProcess

         spman_cls = load_object(self.settings['SPIDER_MANAGER_CLASS'])

         self.spiders = spman_cls.from_crawler(self)  # spiders 的类型是: SpiderManager

Crawler对象对应一个SpiderManager对象，而SpiderManager对象管理多个Spider。

B: 获取Sipder对象。

C: 为Spider对象安装Crawler对象。(为蜘蛛安装爬行器)

D: 类CrawlerProcess的start()方法如下:

     def start(self):

         if self.start_crawling():

             self.start_reactor()

     def start_crawling(self):

         log.scrapy_info(self.settings)

         return self._start_crawler() is not None

     def start_reactor(self):

         if self.settings.getbool('DNSCACHE_ENABLED'):

             reactor.installResolver(CachingThreadedResolver(reactor))

         reactor.addSystemEventTrigger('before', 'shutdown', self.stop)

         reactor.run(installSignalHandlers=False)  # blocking call

     def _start_crawler(self):

         if not self.crawlers or self.stopping:

             return

         name, crawler = self.crawlers.popitem()

         self._active_crawler = crawler

         sflo = log.start_from_crawler(crawler)

         crawler.configure()

         crawler.install()

         crawler.signals.connect(crawler.uninstall, signals.engine_stopped)

         if sflo:

             crawler.signals.connect(sflo.stop, signals.engine_stopped)

         crawler.signals.connect(self._check_done, signals.engine_stopped)

         crawler.start()  ＃ 调用类Crawler的start()方法

         return name, crawler

类Crawler的start()方法如下:

     def start(self):

         yield defer.maybeDeferred(self.configure)

         if self._spider:

             yield self.engine.open_spider(self._spider, self._start_requests()) # 和Engine建立了联系 （ExecutionEngine）

         yield defer.maybeDeferred(self.engine.start)

关于类ExecutionEngine将在子包scrapy.core分析涉及。

2. startproject.py

3. subcommand是如何加载的

在cmdline.py的方法execute()中有如下几行代码:

     inproject = inside_project()

     cmds = _get_commands_dict(settings, inproject)

     cmdname = _pop_command_name(argv)

_get_commands_dict():

 def _get_commands_dict(settings, inproject):

     cmds = _get_commands_from_module('scrapy.commands', inproject)

     cmds.update(_get_commands_from_entry_points(inproject))

     cmds_module = settings['COMMANDS_MODULE']

     if cmds_module:

         cmds.update(_get_commands_from_module(cmds_module, inproject))

     return cmds

_get_commands_from_module():

 def _get_commands_from_module(module, inproject):

     d = {}

     for cmd in _iter_command_classes(module):

         if inproject or not cmd.requires_project:

             cmdname = cmd.__module__.split('.')[-1]

             d[cmdname] = cmd()

     return d

To Be Continued

接下来解析settings相关的逻辑。Python.Scrapy.15-scrapy-source-code-analysis-part-5

Python.Scrapy.14-scrapy-source-code-analysis-part-4的更多相关文章

Memcached source code analysis (threading model)--reference
Look under the start memcahced threading process memcached multi-threaded mainly by instantiating mu ...
Golang Template source code analysis(Parse)
This blog was written at go 1.3.1 version. We know that we use template thought by followed way: fun ...
Memcached source code analysis -- Analysis of change of state--reference
This article mainly introduces the process of Memcached, libevent structure of the main thread and w ...
Apache Commons Pool2 源码分析 | Apache Commons Pool2 Source Code Analysis
Apache Commons Pool实现了对象池的功能.定义了对象的生成.销毁.激活.钝化等操作及其状态转换,并提供几个默认的对象池实现.在讲述其实现原理前,先提一下其中有几个重要的对象: Pool ...
Redis source code analysis
http://zhangtielei.com/posts/blog-redis-dict.html http://zhangtielei.com/assets/photos_redis/redis_d ...
linux kernel & source code analysis& hacking
https://kernelnewbies.org/ http://www.tldp.org/LDP/lki/index.html https://kernelnewbies.org/ML https ...
2018.6.21 HOLTEK HT49R70A-1 Source Code analysis
Cange note: “Reading TMR1H will latch the contents of TMR1H and TMR1L counter to the destination”? F ...
The Ultimate List of Open Source Static Code Analysis Security Tools
https://www.checkmarx.com/2014/11/13/the-ultimate-list-of-open-source-static-code-analysis-security- ...
Top 40 Static Code Analysis Tools
https://www.softwaretestinghelp.com/tools/top-40-static-code-analysis-tools/ In this article, I have ...
Source Code Reading for Vue 3: How does `hasChanged` work?
Hey, guys! The next generation of Vue has released already. There are not only the brand new composi ...

随机推荐

【python】and和or的用法
python 中的and从左到右计算表达式,若所有值均为真,则返回最后一个值,若存在假,返回第一个假值. or也是从左到有计算表达式,返回第一个为真的值. IDLE 1.2.4>>> ...
LINUX yum用法
1.确保RHEL5中已经安装了yum [root@lvs-master ~]# rpm -qa |grep yumyum-metadata-parser-1.1.2-3.el5yum-updatesd ...
javascript性能优化总结二（转载）
上面一篇文章大致介绍了一些javascript当中使用的一些小技巧,当下这篇文章继续介绍一下内存管理.松散耦合.性能方面的一些小知识.为避免错误应该注意的点内存管理 1.循环引用如果循环引用中包含 ...
python xlwt，xlutils 在excel里面如何插入一行数据
就是把插入行之后值重新输出来. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 import xl ...
Hadoop学习17--yarn配置篇-内存管理
这篇文章来自于:董的博客,记录备查内存管理,主要是管理nodemanager上的物理内存和虚拟内存. YARN允许用户配置每个节点上可用的物理内存资源,注意,这里是“可用的”,因为一个节点上的内存会 ...
php数据库访问
从$res获取行数据的时候,处理mysql_fetch_row($res),还有三个方法,分别是 mysql_fetch_row($res); 返回一个所以的数组,速度较快. mysql_fetch_ ...
谈谈Java利用原始HttpURLConnection发送POST数据
这篇文章主要给大家介绍java利用原始httpUrlConnection发送post数据,设计到httpUrlConnection类的相关知识,感兴趣的朋友跟着小编一起学习吧 URLConnectio ...
vmware workstation LINUX磁盘扩容
1.edit virtual machine settings -> 选中硬盘->右侧utilities->expand(虚拟机不能存在镜像),输入要扩容到的大小 2.扩容之后进入系 ...
Fping
(十大特色功能) Ping是最常用的网络测试工具,ping的测试功能其实比较多,xp系统的ping有12个选项.但是,fping测试工具有25个选项,在ping的基础上增加了许多专业的功能,可用于更深 ...
VS2010+VMWare8+VisualDDK1.5.6 创建并调试你的第一个驱动程序 - 完全教程
本文描述了如何使用Visual Studio+VMMare+VisualDDK来创建.编译和调试你的第一个驱动程序.本文提供在开发和调试工具的环境下详细的操作步骤,而无需太多的关心这些环境背后所做的事 ...