twisted的task之cooperator和scrapy的parallel（）函数

def handle_spider_output(self, result, request, response, spider):

        if not result:

            return defer_succeed(None)

        it = iter_errback(result, self.handle_spider_error, request, response, spider)

        dfd = parallel(it, self.concurrent_items,

            self._process_spidermw_output, request, response, spider)

        return dfd

def iter_errback(iterable, errback, *a, **kw):

    """Wraps an iterable calling an errback if an error is caught while

    iterating it.

    """

    it = iter(iterable)

    while True:

        try:

            yield next(it)

        except StopIteration:

            break

        except:

            errback(failure.Failure(), *a, **kw)

包装一个iter，使其可以在迭代时出现异常时调用错误处理函数。

def parallel(iterable, count, callable, *args, **named):

    """Execute a callable over the objects in the given iterable, in parallel,

    using no more than ``count`` concurrent calls.

    Taken from: http://jcalderone.livejournal.com/24285.html

    """

    coop = task.Cooperator()

    work = (callable(elem, *args, **named) for elem in iterable)

    return defer.DeferredList([coop.coiterate(work) for _ in range(count)])

并行处理函数，通过twisted的task来实现的。work是一个生成器，每次迭代时，使work前进一步。defer.DeferredList([coop.coiterate(work) for _ in range(count)])生成count个cooperatertask，定时调用work，直到迭代完成。由此可见，蜘蛛输出是一个deferredlist，一个defer在执行callback时，return是defer时，会停止执行callback，等待到结果执行callback时才能再次继续执行。这样实现了defer的串联执行，外层defer相当于总控制，callback返回defer相当于下层的分支。

def coiterate(self, iterator, doneDeferred=None):

        """

        Add an iterator to the list of iterators this L{Cooperator} is

        currently running.

        Equivalent to L{cooperate}, but returns a L{defer.Deferred} that will

        be fired when the task is done.

        @param doneDeferred: If specified, this will be the Deferred used as

            the completion deferred.  It is suggested that you use the default,

            which creates a new Deferred for you.

        @return: a Deferred that will fire when the iterator finishes.

        """

        if doneDeferred is None:

            doneDeferred = defer.Deferred()

        CooperativeTask(iterator, self).whenDone().chainDeferred(doneDeferred)

        return doneDeferred

cooperator什么时候调用start开始执行任务？其实在构造cooperator时started=True，所以CooperativeTask（）时，会把task加入cooperator，同时调用cooperator的_reschedule()使其可以参与调度。

def _addTask(self, task):

        """

        Add a L{CooperativeTask} object to this L{Cooperator}.

        """

        if self._stopped:

            self._tasks.append(task) # XXX silly, I know, but _completeWith

                                     # does the inverse

            task._completeWith(SchedulerStopped(), Failure(SchedulerStopped()))

        else:

            self._tasks.append(task)

            self._reschedule()

def _tick(self):#每次调度时会遍历没有停止的任务，每个任务会执行onework。

        """

        Run one scheduler tick.

        """

        self._delayedCall = None

        for taskObj in self._tasksWhileNotStopped():

            taskObj._oneWorkUnit()

        self._reschedule()

    _mustScheduleOnStart = False

    def _reschedule(self):

        if not self._started:

            self._mustScheduleOnStart = True

            return

        if self._delayedCall is None and self._tasks:

            self._delayedCall = self._scheduler(self._tick)延时call为定时调用tick函数。

EPSILON = 0.00000001

def _defaultScheduler(x):

    from twisted.internet import reactor

    return reactor.callLater(_EPSILON, x)

通过self._scheduler(self._tick)（_defaultScheduler(x)）使twisted的reactor能不断调用tick函数。

twisted的task之cooperator和scrapy的parallel（）函数的更多相关文章

scrapy item处理----cooperator和parallel()函数
twisted的task之cooperator和scrapy的parallel()函数本文是关于下载结果返回后调用item处理的过程实现研究. 从scrapy的结果处理说起 def handle_s ...
重新想象 Windows 8 Store Apps (43) - 多线程之任务: Task 基础, 多任务并行执行, 并行运算（Parallel）
[源码下载] 重新想象 Windows 8 Store Apps (43) - 多线程之任务: Task 基础, 多任务并行执行, 并行运算(Parallel) 作者:webabcd 介绍重新想象 W ...
scrapy之parallel
Limiting Parallelism jcalderone May 22nd, 2006 This blog has moved! Read this post and its comments ...
多线程之任务: Task 基础, 多任务并行执行, 并行运算（Parallel）
Task - 基于线程池的任务(在 System.Threading.Tasks 命名空间下) 多 Task 的并行执行 Parallel - 并行计算(在 System.Threading.Task ...
scrapy yield 回调函数不执行解决方案
yield Request(url=parse.urljoin(response.url, p_url),callback=self.parse_detail) 回调函数不执行: 加上: dont_f ...
scrapy框架Request函数callback参数为什么是self.parse而不是self.parse( )
加括号是调用函数,不加括号是指的是函数地址,此处只需要传入函数的地址,等待程序到时调用即可
twisted task.cpperator
twisted task.cpperator 1. twisted task.cpperator 1.1. 简介-cooperator 官方文档: https://twistedmat ...
scrapy 源码解析（三）：启动流程源码分析(三) ExecutionEngine执行引擎
ExecutionEngine执行引擎上一篇分析了CrawlerProcess和Crawler对象的建立过程,在最终调用CrawlerProcess.start()之前,会首先建立Execution ...
Scrapy 爬虫使用指南完全教程
scrapy note command 全局命令: startproject :在 project_name 文件夹下创建一个名为 project_name 的Scrapy项目. scrapy sta ...

随机推荐

SSL Certificate Signed Using Weak Hashing Algorithm 和SSL Medium Strength Cipher Suites Supported的解决方案
这两天有个项目被扫描器报了几个中危,都是SSL证书的问题.记录一下解决方案吧. 第一个问题:SSL Certificate Signed Using Weak Hashing Algorithm 这里 ...
XML注入（XXE）
XML所有元素都必须要有一个结束标志大小写敏感所有元素嵌套必须正确所有的XML文档都必须要有一个根标志 XML包括XML声明,DTD文档类型定义(可选),文档元素 DTD即文档类型定义,用来为X ...
css颜色的设置
css的颜色设置 1.英文命令颜色 p{color:blue;}RGB颜色 2.与 photoshop 中的 RGB 颜色一致,由 R(red).G(green).B(blue) 三种颜色的比例来配色 ...
pycharm操作
使用Visual Studio给SQL生成测试数据
参考:http://www.cnblogs.com/CareySon/archive/2012/02/20/2359444.html 使用VS2010的数据生成计划来生成测试数据以下面两个表来做例子 ...
线程中AutoResetEvent与ManualResetEvent的区别
线程之间的通信是通过发信号来进行沟通的.. ManualResetEvent发送Set信后后,需要手动Reset恢复初始状态.而对于AutoResetEvent来说,当发送完毕Set信号后,会自动Re ...
PLSQL脚本中自定义异常的简单使用
第一步:自定义异常 excp_notexists exception 第二步:捕获异常 begin select *** into *** from *** where ...
refreshContext(context)方法源码探究
该方法目的是刷新应用上下文,是容器启动最主要的方法,其实现是一个模板方法,内容巨大,所以先看模板方法都做了哪些事,然后再细看每个方法的实现机制. refreshContext(context)方法首先 ...
Spfa求最短路径
spfa求最短路径,其思想就是遍历每一个点,将没有入队的点入队,从这个点开始不断修改能够修改的最小路径,直到队空.不过这里一个点可以重复入队. 这个需要有存图的基础--------->前向星存图 ...
深度学习（一）——CNN算法流程
深度学习(一)——CNN(卷积神经网络)算法流程参考:http://dataunion.org/11692.html 0 引言 20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感 ...

twisted的task之cooperator和scrapy的parallel（）函数

twisted的task之cooperator和scrapy的parallel（）函数的更多相关文章

随机推荐

热门专题