欲看此文,必先可先看:

golang实现并发爬虫一(单任务版本爬虫功能)

gollang实现并发爬虫二(简单调度器)

上文中的用简单的调度器实现了并发爬虫。

并且,也提到了这种并发爬虫的实现可以提高爬取效率。

当workerCount为1和workerCount为10时其爬取效率是有明显不同的。

然而,文末其实也提到了这个简单调度器实现的爬虫有个不可控或者说是控制力太小了的问题。

究其原因就是因为我们实现的方法是来一个request就给创建一个groutine。

为了让这个程序变得更为可控。得想想怎么可以优化下了。

现在,非常明显,优化点就是我不想要来一个request就创建一个这个实现过程。

那么,我们可以想到队列。

把request放到request队列里。

那么,request队列里一定是会有一个request的头的,我们就可以把这个request的头元素给到worker去做实现。

也就是这样:

but,这样是没有对worker进行一个控制的。

我们希望request可以选择我们想要的一个worker。

那么,我们也可以让scheduler维护一个worker的队列。

这里用了三个并行的模块:

1.engine 引擎模块。

2.scheduler 调度器模块。

3.worker 工作模块。

这三者通信都是通过channel来通信的。

上图中可知道调度器模块实际上是维护了2个channel,一个是request的channel,一个是worker的channel。

  1. //队列调度器
  2. //这个scheduler与engine和worker之间的通信都是通过channel来连接的。
  3. //故尔它的肚子里应该有request相关的channel和worker相关的channel.
  4. //另外注意这里worker的channel的类型是chan Request。
  5. type QueuedScheduler struct {
  6. requestChan chan con_engine.Request
  7. workerChan chan chan con_engine.Request
  8. }

那么,我们就只需要在这个scheduler调度器的两个channel里,各取一个元素,即取request和worker(chan con_engine.Request),把request发给worker就可以了。

一直不断的去取和发送,这就是这个队列调度器要做的事情了。

那个弯曲的箭头也就是指的这个事情了。在request的队列里找到合适的request发给worker队列里合适的worker就好。

这就是一个整体的思想了。

稍微说下关于维护如何两个队列的代码。

重点在于怎么才能做到各读取一个元素。

channel的读取是会阻塞的。

如果我先读取request,如果读取不到,那么在等待的时候就没有办法取到worker了。

解决方案就是用select,因为select会保证一点,select里的每一个case都会被执行到且会很快速的执行。

  1. func (s *QueuedScheduler) Run() {
  2. s.requestChan = make(chan con_engine.Request) //指针接收者才能改变里面的内容。
  3. s.workerChan = make(chan chan con_engine.Request)
  4. go func() {
  5. var requestQ []con_engine.Request
  6. var workerQ []chan con_engine.Request
  7. for {
  8. var activeRequest con_engine.Request
  9. var activeWorker chan con_engine.Request
  10. if len(requestQ) > && len(workerQ) > {
  11. activeRequest = requestQ[]
  12. activeWorker = workerQ[]
  13. }
  14. //收到一个request就让request排队,收到一个worker就让worker排队。所有的channel操作都放到select里。
  15. select {
  16. case r := <-s.requestChan:
  17. requestQ = append(requestQ, r)
  18. case w := <-s.workerChan:
  19. workerQ = append(workerQ, w)
  20. case activeWorker <- activeRequest:
  21. requestQ = requestQ[:]
  22. workerQ = workerQ[:]
  23. }
  24. }
  25. }()
  26. }

select就是在做三件事情:

1.从requestChan里收一个request,将这个request存在变量requestQ里。

2.从workerChan里收一个worker,将这个worker存在变量workerQ里。

3.把第一个requestQ里的第一个元素发给第一个workerQ里的第一个元素。  

其他代码就感兴趣的同学自己看吧。

作者就先说到这里。

总体调度的思想上面的图中。

具体的实现在源码里。

欢迎大家留言指教。

源码:

https://github.com/anmutu/du_crawler/tree/master/04crawler

疫情期间的佛系小程序:

https://www.zmfei4.com/ (谐音:怎么肥四?)

店家已经不愿意经营,看看就好。

golang实现并发爬虫三(用队列调度器实现)的更多相关文章

  1. golang实现并发爬虫二(简单调度器)

    上篇文章当中实现了单任务版爬虫. 那么这篇文章就大概说下,如何在上一个版本中进行升级改造,使之成为一个多任务版本的爬虫.加快我们爬取的速度. 话不多说,先看图: 其实呢,实现方法就是加了一个sched ...

  2. golang实现并发爬虫一(单任务版本爬虫功能)

    目的是写一个golang并发爬虫版本的演化过程. 那么在演化之前,当然是先跑通一下单任务版本的架构. 正如人走路之前是一定要学会爬走一般. 首先看一下单任务版本的爬虫架构,如下: 这是单任务版本爬虫的 ...

  3. golang版并发爬虫

    准备爬取内涵段子的几则笑话,先查看网址:http://www.budejie.com/text/ 简单分析后发现每页的url呈加1趋势 第一页: http://www.budejie.com/text ...

  4. Golang调度器GMP原理与调度全分析(转 侵 删)

    该文章主要详细具体的介绍Goroutine调度器过程及原理,包括如下几个章节. 第一章 Golang调度器的由来 第二章 Goroutine调度器的GMP模型及设计思想 第三章 Goroutine调度 ...

  5. Golang/Go goroutine调度器原理/实现【原】

    Go语言在2016年再次拿下TIBOE年度编程语言称号,这充分证明了Go语言这几年在全世界范围内的受欢迎程度.如果要对世界范围内的gopher发起一次“你究竟喜欢Go的哪一点”的调查,我相信很多Gop ...

  6. 第1节 yarn:14、yarn集群当中的三种调度器

    yarn当中的调度器介绍: 第一种调度器:FIFO Scheduler  (队列调度器) 把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源 ...

  7. scrapy 基础组件专题(七):scrapy 调度器、调度器中间件、自定义调度器

    一.调度器 配置 SCHEDULER = 'scrapy.core.scheduler.Scheduler' #表示scrapy包下core文件夹scheduler文件Scheduler类# 可以通过 ...

  8. 大数据之Yarn——Capacity调度器概念以及配置

    试想一下,你现在所在的公司有一个hadoop的集群.但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求.那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这 ...

  9. MapReduce多用户任务调度器——容量调度器(Capacity Scheduler)原理和源码研究

    前言:为了研究需要,将Capacity Scheduler和Fair Scheduler的原理和代码进行学习,用两篇文章作为记录.如有理解错误之处,欢迎批评指正. 容量调度器(Capacity Sch ...

随机推荐

  1. fastai 官方教程之查看数据

    本文为fastai官方教程编译版本.若有错误,欢迎指正. 总目录: *查看数据:本节为初级教程,介绍怎样快速的查看你的数据和模型预测结果.* 推理学习器(Inference Learner):本节为中 ...

  2. 【WPF学习】第六十章 创建控件模板

    经过数十天的忙碌,今天终于有时间写博客. 前面一章通过介绍有关模板工作方式相关的内容,同时介绍了FrameWorkElement下所有控件的模板.接下来将介绍如何构建一个简单的自定义按钮,并在该过程中 ...

  3. EF多租户实例:快速实现分库分表

    前言 来到这篇随笔,我们继续演示如何实现EF多租户. 今天主要是演示多租户下的变形,为下图所示 实施 项目结构 这次我们的示例项目进行了精简,仅有一个API项目,直接包含所有代码. 其中Control ...

  4. coding++:win10家庭版升级专业版方案

    win10家庭版升级专业版密钥: VK7JG-NPHTM-C97JM-9MPGT-3V66T 4N7JM-CV98F-WY9XX-9D8CF-369TT FMPND-XFTD4-67FJC-HDR8C ...

  5. Ubuntu在Anaconda中安装TensorFlow GPU,Keras,Pytorch

    安装TensorFlow GPU pip install --ignore-installed --upgrade tensorflow-gpu 安装测试: $ source activate tf ...

  6. 泛型Genericity

    泛型:可以在类或方法中预支地使用未知的类型. 注意: 一般在创建对象时,将未知的类型确定具体的类型.当没有指定泛型时,默认类型为Object类型.           E - Element      ...

  7. Day19-apache

    HTTPD(俗称apache) 简介:目前来说,Linuxweb服务器主要用apache与nginx. 1.web服务器的输入/输出结构: 单线程I/O结构 多线程I/O结构 复用的I/O结构,单个线 ...

  8. Asp.Net.Core WebApi 版本控制

    前言 在后端Api的开发过程中,无法避免的会遇到接口迭代的过程,如何保证新老接口的共存和接口的向前的兼容呢,这时候就需要对Api进行版本的控制,那如何优雅的控制Api的版本呢? 开始 Microsof ...

  9. Mac电脑之间的文件共享 - 偏门

    文件共享是工作中经常要进行的. Mac用户之间可以通过AirDrop来共享文件.AirDrop要借助无线网络,而很多人都是将Mac做成个人热点供手机等Wifi连接,AirDrop时必须断开热点,不方便 ...

  10. echarts设置图标图例legend多种形状

    legend: {   icon: "circle",   //  字段控制形状  类型包括 circle,rect,line,roundRect,triangle,diamond ...