并发版爬虫

代码实现

/crawler/main.go

package main

import (

	"learn/crawler/engine"

	"learn/crawler/scheduler"

	"learn/crawler/zhenai/parser"

)

func main() {

	e := engine.ConcurrentEngine{

		Scheduler: &scheduler.QueuedScheduler{},

		WorkerCount: 20,

	}

	e.Run(engine.Request{

		Url:       "http://www.zhenai.com/zhenghun",

		ParseFunc: parser.ParseCityList,

	})

	//测试上海单个城市

	//e.Run(engine.Request{

	//	Url:       "http://www.zhenai.com/zhenghun/shanghai",

	//	ParseFunc: parser.ParseCity,

	//})

}

/crawler/engine/simple.go

package engine

import (

	"learn/crawler/fetcher"

	"log"

)

type SimpleEngine struct {

}

func (e SimpleEngine) Run(seeds ...Request)  {

	var requests []Request

	for _, r := range seeds {

		requests = append(requests, r)

	}

	for len(requests) > 0 {

		r := requests[0]

		requests = requests[1:]

		parseResult, err := worker(r)

		if err != nil {

			continue

		}

		requests = append(requests, parseResult.Requests...)

		for _, item := range parseResult.Items{

			log.Printf("Got item %v", item)

		}

	}

}

func worker(r Request) (ParseResult, error) {

	log.Printf("Fetching %s", r.Url)

	body, err := fetcher.Fetch(r.Url)

	if err != nil {

		log.Printf("Fetcher: error" + "fetching url %s: %v", r.Url, err)

		return ParseResult{}, err

	}

	return r.ParseFunc(body), nil

}

/crawler/engine/concurrent.go

package engine

import (

	"log"

)

type ConcurrentEngine struct {

	Scheduler Scheduler

	WorkerCount int

}

type Scheduler interface {

	ReadyNotifier

	Submit(Request)

	WorkerChan() chan Request

	Run()

}

type ReadyNotifier interface {

	WorkerReady(chan Request)

}

func (e *ConcurrentEngine) Run(seeds ...Request)  {

	out := make(chan ParseResult)

	e.Scheduler.Run()

	for i := 0; i < e.WorkerCount; i++ {

		createWork(e.Scheduler.WorkerChan(), out, e.Scheduler)

	}

	for _, r := range seeds {

		e.Scheduler.Submit(r)

	}

	itemCount := 0

	for {

		result := <- out

		for _, item := range result.Items {

			log.Printf("Got item #%d: %v", itemCount, item)

			itemCount++

		}

		for _, request := range result.Requests {

			e.Scheduler.Submit(request)

		}

	}

}

func createWork(in chan Request, out chan ParseResult, ready ReadyNotifier)  {

	go func() {

		for  {

			ready.WorkerReady(in)

			request := <- in

			result, err := worker(request)

			if err != nil {

				continue

			}

			out <- result

		}

	}()

}

/crawler/engine/typers.go

package engine

type Request struct {

	Url string

	ParseFunc func([]byte) ParseResult

}

type ParseResult struct {

	Requests []Request

	Items []interface{}

}

func NilParser([]byte) ParseResult{

	return ParseResult{}

}

/crawler/fetcher/fetcher.go

package fetcher

import (

	"bufio"

	"fmt"

	"golang.org/x/net/html/charset"

	"golang.org/x/text/encoding"

	"golang.org/x/text/encoding/unicode"

	"golang.org/x/text/transform"

	"io/ioutil"

	"log"

	"net/http"

	"time"

)

var rateLimiter = time.Tick(100 * time.Millisecond)

func Fetch(url string) ([]byte, error)  {

	<- rateLimiter

	client := &http.Client{}

	req, err := http.NewRequest("GET", url, nil)

	if err != nil {

		return nil, err

	}

	req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36")

	resp, err := client.Do(req)

	if err != nil {

		return nil, err

	}

	defer resp.Body.Close()

	if resp.StatusCode != http.StatusOK {

		return nil, fmt.Errorf("Wrong status code: %d", resp.StatusCode)

	}

	bodyReader := bufio.NewReader(resp.Body)

	e := determineEncoding(bodyReader)

	utf8Reader := transform.NewReader(bodyReader, e.NewDecoder())

	return ioutil.ReadAll(utf8Reader)

}

func determineEncoding(r *bufio.Reader) encoding.Encoding  {

	bytes, err := r.Peek(1024)

	if err != nil {

		log.Printf("Fetcher error: %v", err)

		return unicode.UTF8

	}

	e, _, _ := charset.DetermineEncoding(bytes, "")

	return e

}

/crawler/zhenai/parser/citylist.go

package parser

import (

	"learn/crawler/engine"

	"regexp"

)

const cityListRe  = `<a href="(http://www.zhenai.com/zhenghun/[0-9a-z]+)" [^>]*>([^<]+)</a>`

func ParseCityList(contents []byte) engine.ParseResult {

	re := regexp.MustCompile(cityListRe)

	matches := re.FindAllSubmatch(contents, -1)

	result := engine.ParseResult{}

	for _, m := range matches {

		result.Items = append(result.Items, "City: "+string(m[2]))

		result.Requests = append(result.Requests, engine.Request{

			Url:       string(m[1]),

			ParseFunc: ParseCity,

		})

	}

	return result

}

/crawler/zhenai/parser/city.go

package parser

import (

	"learn/crawler/engine"

	"regexp"

)

var (

	profileRe = regexp.MustCompile(`<a href="(http://album.zhenai.com/u/[0-9]+)" [^>]*>([^<]+)</a>`)

	cityUrlRe = regexp.MustCompile(`href="(http://www.zhenai.com/zhenghun/[^"]+)"`)

)

func ParseCity(contents []byte) engine.ParseResult {

	matches := profileRe.FindAllSubmatch(contents, -1)

	result := engine.ParseResult{}

	for _, m := range matches {

		name := string(m[2])

		result.Items = append(result.Items, "User "+name)

		result.Requests = append(result.Requests, engine.Request{

			Url:       string(m[1]),

			ParseFunc: func(c []byte) engine.ParseResult {

				return ParseProfile(c, "name:"+name)

			},

		})

	}

	matches = cityUrlRe.FindAllSubmatch(contents, -1)

	for _, m := range matches {

		result.Requests = append(result.Requests, engine.Request{

			Url:       string(m[1]),

			ParseFunc: ParseCity,

		})

	}

	return result

}

/crawler/zhenai/parser/profile.go

package parser

import (

	"learn/crawler/engine"

	"learn/crawler/model"

	"regexp"

)

const all = `<div class="m-btn purple" data-v-8b1eac0c>([^<]+)</div>`

func ParseProfile(contents []byte, name string) engine.ParseResult {

	profile := model.Profile{}

	profile.User = append(profile.User, name)

	re := regexp.MustCompile(all)

	match := re.FindAllSubmatch(contents,-1)

	if match != nil {

		for _, m := range match {

			profile.User = append(profile.User, string(m[1]))

		}

	}

	result := engine.ParseResult{

		Items: []interface{}{profile},

	}

	return result

}

/crawler/model/profile.go

package model

type Profile struct {

	User []string

}

/crawler/scheduler/queued.go

package scheduler

import "learn/crawler/engine"

type QueuedScheduler struct {

	requestChan chan engine.Request

	workChan chan chan engine.Request

}

func (s *QueuedScheduler) WorkerChan() chan engine.Request {

	return make(chan engine.Request)

}

func (s *QueuedScheduler) Submit(r engine.Request) {

	s.requestChan <- r

}

func (s *QueuedScheduler) WorkerReady(w chan engine.Request){

	s.workChan <- w

}

func (s *QueuedScheduler) Run(){

	s.workChan = make(chan chan engine.Request)

	s.requestChan = make(chan engine.Request)

	go func() {

		var requestQ []engine.Request

		var workerQ []chan engine.Request

		for {

			var activeRequest engine.Request

			var activeWorker chan engine.Request

			if len(requestQ) > 0 && len(workerQ) > 0 {

				activeRequest = requestQ[0]

				activeWorker = workerQ[0]

			}

			select {

				case r := <-s.requestChan:

					requestQ = append(requestQ, r)

				case w := <-s.workChan:

					workerQ = append(workerQ, w)

				case activeWorker <- activeRequest:

					workerQ = workerQ[1:]

					requestQ = requestQ[1:]

			}

		}

	}()

}

/crawler/scheduler/simple.go

package scheduler

import "learn/crawler/engine"

type SimpleScheduler struct {

	workerChan chan engine.Request

}

func (s *SimpleScheduler) WorkerChan() chan engine.Request {

	return s.workerChan

}

func (s *SimpleScheduler) WorkerReady(chan engine.Request) {

}

func (s *SimpleScheduler) Run() {

	s.workerChan = make(chan engine.Request)

}

func (s *SimpleScheduler) Submit(r engine.Request) {

	go func() { s.workerChan <- r }()

}

完整项目

https://gitee.com/FenYiYuan/golang-cpdcrawler.git

go并发版爬虫的更多相关文章

Go语言之进阶篇爬百度贴吧并发版
1.爬百度贴吧并发版示例: package main import ( "fmt" "net/http" "os" "strco ...
Go HelloWorld 网络版和并发版
网络版 package main import ( "net/http" "fmt" ) func main() { http.HandleFunc(" ...
go-爬虫-百度贴吧（并发版）
爬取百度贴吧的网页非并发版 package main import ( "fmt" "io" "net/http" "os&qu ...
go单任务版爬虫
go单任务版爬虫(爬取珍爱网) 爬虫总体算法单任务版爬虫架构任务获取并打印所在城市第一页用户的详细信息代码实现 /crawler/main.go package main import ( & ...
区划代码 node 版爬虫尝试
前言对于区划代码数据,很多人都不会陌生,大多公司数据库都会维护一份区划代码,包含省市区等数据.区划信息跟用户信息息息相关,往往由于历史原因很多数据都是比较老的数据,且不会轻易更改.网上也有很多人提供 ...
python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
最新IP地址数据库Dat格式-高性能高并发版(2019年3月)
最新IP地址数据库->Dat 二进制文件高性能高并发-qqzeng-ip.dat 格式全球IP数据库-20190301-Dat 版国内IP数据库-20190 ...
python链家网高并发异步爬虫and异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
python学习_新闻联播文字版爬虫（V 1.0版）
python3的爬虫练习,爬取的是新闻联播文字版网站 #!/usr/bin/env python # -*- coding: utf-8 -*- ''' __author__ = 'wyf349' _ ...

随机推荐

Mbp通过筛选器和中间件实现异常,日志,事务及接口返回数据格式化aop处理.
Mbp应用服务层的AOP实现实现方法:asp.net core mvc 筛选器 + 中间件日志,事务,和接口返回结果统一格式化采用操作筛选器,而异常处理采用中间件来处理. 最开始,我是打算用aut ...
Spring 核心功能演示
Spring 核心功能演示 Spring Framework 简称 Spring,是 Java 开发中最常用的框架,地位仅次于 Java API,就连近几年比较流行的微服务框架 SpringBoot, ...
利用AppMetrics对Web进行监控教程
利用AppMetrics对Web进行监控教程一.基础准备 1. 安装依赖这里可以通过nuget或使用命令行进行安装,具体需要安装的类库如下(注意版本): Install-Package App.M ...
痞子衡嵌入式：ARM Cortex-M内核那些事（3.3）- 为AI,ML而生(M55)
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是ARM Cortex-M55. 鼠年春节,大家都在时刻关心 2019nCoV 疫情发展,没太多心思搞技术,就在这个时候,ARM 不声不响 ...
2、TCP/IP
TCP/IP协议栈:物理层.数据接口层.网络层.传输层.应用层或网络接口层.网络层.传输层.应用层 TCP/IP协议栈的核心协议:1.TCP2.UDP3.ICMP4.IGMP5.ARP:映射IP→Et ...
MSVC下快速Unicode I/O
http://blog.kingsamchen.com/archives/863 如果需要往console输出包含非ASCII字符的宽字符串,一个比较快速的方法是使用WriteConsoleW这个AP ...
自己封装的一个Ajax小框架
在经历了Jsp实训的惨痛教训后,特意花了点时间学习Ajax,学完后自我感觉良好,于是写了如下一个小框架: /** * frameAjax * * 参数: * paramsObj: Json * req ...
gRPC初识
RPC算是近些年比较火热的概念了,随着微服务架构的兴起,RPC的应用越来越广泛.本文介绍了RPC和gRPC的相关概念,并且通过详细的代码示例介绍了gRPC的基本使用. RPC是什么在分布式计算,远程 ...
CCF_201612-1_最大波动
http://115.28.138.223/view.page?gpid=T47 水. #include<iostream> #include<cstring> #includ ...
51nod 1133 不重叠的线段 (贪心，序列上的区间问题)
题意: 最多能选几条不重叠的线段思路: 按R从小到大排序,维护一个最大的右端点右端点最小的那个线段是必选的,可以贪心地证明代码: #include<iostream> #includ ...

go并发版爬虫

并发版爬虫

代码实现

/crawler/main.go

/crawler/engine/simple.go

/crawler/engine/concurrent.go

/crawler/engine/typers.go

/crawler/fetcher/fetcher.go

/crawler/zhenai/parser/citylist.go

/crawler/zhenai/parser/city.go

/crawler/zhenai/parser/profile.go

/crawler/model/profile.go

/crawler/scheduler/queued.go

/crawler/scheduler/simple.go

完整项目

go并发版爬虫的更多相关文章

随机推荐

热门专题