[日常] Go语言圣经--并发的web爬虫

两种：

crawler.go

package main

import (

        "fmt"

        "links"

        //"log"

        "os"

)

func main() {

        worklist := make(chan []string)

        // Start with the command-line arguments.

        go func() { worklist <- os.Args[1:] }()

        // Crawl the web concurrently.

        seen := make(map[string]bool)

        for list := range worklist {

                for _, link := range list {

                        if !seen[link] {

                                seen[link] = true

                                go func(link string) {

                                        worklist <- crawl(link)

                                }(link)

                        }

                }

        }

}

var tokens = make(chan struct{}, 20) 

//从一个url页面中提取出所有的url

func crawl(url string) []string {

        fmt.Println(url)

        tokens <- struct{}{}

        list, err := links.Extract(url)

        <-tokens

        if err != nil {

                //log.Print(err)

        }

        return list

}

crawler2.go

package main

import (

        "fmt"

        "links"

        //"log"

        "os"

        "strings"

)

func main() {

        worklist := make(chan []string)

        unseenLinks := make(chan string)

        // Start with the command-line arguments.

        go func() { worklist <- os.Args[1:] }()

        // Create 20 crawler goroutines to fetch each unseen link.

        for i := 0; i < 20; i++ {

                go func() {

                        for link := range unseenLinks {

                                //if strings.HasPrefix(link, "http://www.lypeng.com") {

                                foundLinks := crawl(link)

                                go func() { worklist <- foundLinks }() 

                                //}

                        }

                }()

        }   

        // The main goroutine de-duplicates worklist items

        // and sends the unseen ones to the crawlers.

        seen := make(map[string]bool)

        for list := range worklist {

                for _, link := range list {

                        if !seen[link] {

                                seen[link] = true

                                unseenLinks <- link

                        }

                }

        }

}

//从一个url页面中提取出所有的url

func crawl(url string) []string {

        fmt.Println(url)

        list, err := links.Extract(url)

        if err != nil {

                //log.Print(err)

        }

        return list

}

[日常] Go语言圣经--并发的web爬虫的更多相关文章

[日常] GO语言圣经-并发获取多个URL
go语言圣经-并发获取多个URL 1.GO最新奇的特性就是对并发编程的支持,goroutine和channel 2.goroutine是一种函数的并发执行方式,而channel是用来在goroutin ...
[日常] Go语言圣经-并发的非阻塞缓存
1.go test命令是一个按照约定和组织进行测试的程序2.竞争检查器 go run -race 附带一个运行期对共享变量访问工具的test,出现WARNING: DATA RACE 说明有数据竞争3 ...
[日常] Go语言圣经--并发的循环习题
练习 8.4: 修改reverb2服务器,在每一个连接中使用sync.WaitGroup来计数活跃的echo goroutine.当计数减为零时,关闭TCP连接的写入,像练习8.3中一样.验证一下你的 ...
[日常] Go语言圣经-WEB服务与习题
Go语言圣经-web服务 1.Web服务程序,标准库里的方法已经帮我们完成了大量工作 2.main函数将所有发送到/路径下的请求和handler函数关联起来,/开头的请求其实就是所有发送到当前站点上的 ...
[日常] Go语言圣经-文本和HTML模板习题
Go语言圣经-文本和HTML模板练习 4.14: 创建一个web服务器,查询一次GitHub,然后生成BUG报告.里程碑和对应的用户信息. 1.查看下文档godoc net/http |grep H ...
[日常] Go语言圣经--结构体,JSON习题
Go语言圣经-结构体 1.结构体是一种聚合的数据类型,是由零个或多个任意类型的值聚合成的实体 2.通常一行对应一个结构体成员,成员的名字在前类型在后,不过如果相邻的成员类型如果相同的话可以被合并到一行 ...
[日常] Go语言圣经前言
https://books.studygolang.com/gopl-zh/ go语言圣经 1.Go语言有时候被描述为“C类似语言”,或者是“21世纪的C语言”. 2.Go语言中和并发编程相关的特性是 ...
[日常] Go语言圣经--接口约定习题
Go语言圣经-接口1.接口类型是对其它类型行为的抽象和概括2.Go语言中接口类型的独特之处在于它是满足隐式实现的3.Go语言中还存在着另外一种类型:接口类型.接口类型是一种抽象的类型4.一个类型可以自 ...
[日常] Go语言圣经-Panic异常,Recover捕获异常习题
Go语言圣经-Panic异常1.当panic异常发生时,程序会中断运行,并立即执行在该goroutine中被延迟的函数(defer 机制)2.不是所有的panic异常都来自运行时,直接调用内置的pan ...

随机推荐

记录一次错误处理（xml序列化和反序列化相关）
XML序列化后,反序列化时出现错误报错现象 System.InvalidOperationException: XML 文档(40, 11)中有错误. ---> System.Xml.XmlE ...
ASP.Net MVC OA项目笔记<二>
1.1.0 创建数据层 1.1.1 CZBK.ItcastOA.IDAL 引用 CZBK.ItcastOA.Model 1.2.1 给IDAL添加一个接口IUserInfoDal 里面写增删改查分页的 ...
【ElasticSearch】：索引Index、文档Document、字段Field
因为从ElasticSearch6.X开始,官方准备废弃Type了.对应数据库,对ElasticSearch的理解如下: ElasticSearch 索引Index 文档Document 字段Fiel ...
JVM锁优化
1. 概述 JDK1.6版本花费了大量精力去实现各种锁优化,如适应性自旋,锁消除,锁粗化,轻量级锁,偏向锁等,这些技术都是为了在线程期间更高效的共享数据,以及解决竞争问题. 2. 自旋锁与自适应自旋 ...
android 回调函数使用简介
//1---定义回调函数 public interface GirdMenuStateListener { void onSuccess(); void onError(); } //2---使用的地 ...
集合框架_DAY16
1:List及其子类(掌握) (1)List的特点: Collection |--List:元素有序(存入顺序和取出顺序一致),可重复. |--Set:元素无序,唯一. ...
Deep Learning (中文版&英文版)
Bengio Yoshua,Ian J. Goodfellow 和 Aaron Courville共同撰写的<深度学习>(Deep Learning)是一本为了帮助学生及从业者入门机器学习 ...
(转)linux用户态和内核态理解
原文:https://blog.csdn.net/buptapple/article/details/21454167 Linux探秘之用户态与内核态-----------https://www.cn ...
RVM的安装和使用过程中碰到的问题
Ruby Version Manager简称RVM,是一款非常好用的ruby版本管理以及安装工具. 关于rvm的安装,可以参考以下文章: use rvm install and manage ruby ...
tensorflow进阶篇-4(损失函数2)
Hinge损失函数主要用来评估支持向量机算法,但有时也用来评估神经网络算法.下面的示例中是计算两个目标类(-1,1)之间的损失.下面的代码中,使用目标值1,所以预测值离1越近,损失函数值越小: # U ...

[日常] Go语言圣经--并发的web爬虫

[日常] Go语言圣经--并发的web爬虫的更多相关文章

随机推荐

热门专题