[GO]并发的网络爬虫

package main

import (

    "fmt"

    "strconv"

    "net/http"

    "os"

    "io"

)

//百度贴吧的地址规律

//第一页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8(&pn=0)

//第二页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=50

//第三页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=100

//所以它的最后的数字每加50,代表着下一页

//整体提取的思路：

//1、先拿地址

//2、爬

//3、取

//4、存

func HttpGet(url string) (result string, err error) {

    resp, err1 := http.Get(url)

    if err != nil {

        err = err1

        return

    }

    defer resp.Body.Close()

    //读取网页的body内容

    buf := make([]byte, *)

    for true {

        n, err := resp.Body.Read(buf)

        if err != nil {

            if err == io.EOF{

                fmt.Println("文件读取完毕")

                break

            }else {

                fmt.Println("resp.Body.Read err = ", err)

                break

            }

        }

        result += string(buf[:n])

    }

    return

}

//爬取一个网页

func SpiderPage(i int, page chan <- int)  {

    url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-)*)

    fmt.Printf("正在爬取第%d个网页\n", i)

    //爬,将所有的网页内容爬取下来

    result, err := HttpGet(url)

    if err != nil {

        fmt.Println("http.Get err = ", err)

        return

    }

    //把内容写入到文件

    filename := strconv.Itoa((i-)*) + ".html"

    f, err1 := os.Create(filename)

    if err1 != nil{

        fmt.Println("os.Create err = ", err1)

        return

    }

    //写内容

    f.WriteString(result)

    //关闭文件

    f.Close()

    //每爬完一个，就给个值

    page<-i

}

func DoWork(start, end int)  {

    fmt.Printf("正在爬取第%d页到%d页\n", start, end)

    //因为很有可能爬虫还没有结束下面的循环就已经结束了，所以这里就需要且到通道

    page := make(chan int)

    for i:=start; i<=end; i++ {

        //将page阻塞

        go SpiderPage(i, page)

    }

    for i:=start; i<=end; i++ {

        fmt.Printf("第%d个页面爬取完成\n",<-page)//这里直接将面码传给点位符，值直接从管道里取出

    }

}

func main() {

    var start, end int

    fmt.Printf("请输入起始页>=1：> ")

    fmt.Scan(&start)

    fmt.Printf("请输入结束页：> ")

    fmt.Scan(&end)

    DoWork(start, end)

}

这里带来的是效率上的提升

[GO]并发的网络爬虫的更多相关文章

Atitit.数据检索与网络爬虫与数据采集的原理概论
Atitit.数据检索与网络爬虫与数据采集的原理概论 1. 信息检索1 1.1. <信息检索导论>((美)曼宁...)[简介_书评_在线阅读] - dangdang.html1 1.2. ...
GJM：用C#实现网络爬虫（一） [转载]
网络爬虫在信息检索与处理中有很大的作用,是收集网络信息的重要工具. 接下来就介绍一下爬虫的简单实现. 爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载 ...
Atitit 网络爬虫与数据采集器的原理与实践attilax著 v2
Atitit 网络爬虫与数据采集器的原理与实践attilax著 v2 1. 数据采集1 1.1. http lib1 1.2. HTML Parsers,1 1.3. 第8章 web爬取199 1 2 ...
crawler4j：轻量级多线程网络爬虫
crawler4j是Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫. 安装使用Maven 使用最新版本的crawler4j,在pom.xml中添加如下片段: ...
用C#实现网络爬虫（一）
网络爬虫在信息检索与处理中有很大的作用,是收集网络信息的重要工具. 接下来就介绍一下爬虫的简单实现. 爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载 ...
SHELL网络爬虫实例剖析--转载
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://nolinux.blog.51cto.com/4824967/1552472 前天 ...
Linux企业级项目实践之网络爬虫（21）——扩展为多任务爬虫
高效的网络爬虫是搜索引擎的重要基础.采用多任务并发执行,实现类似于CPU的流水线(pipeline)运行方式,可极大地提高网络和计算资源的利用率等性能. #include "threads. ...
156个Python网络爬虫资源
本列表包含Python网页抓取和数据处理相关的库. 网络相关通用 urllib - 网络库(标准库) requests - 网络库 grab - 网络库(基于pycurl) pycurl - 网络库 ...
[原创]手把手教你写网络爬虫（5）：PhantomJS实战
手把手教你写网络爬虫(5) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 大家好!从今天开始,我要与大家一起打造一个属于我们自己的分布式爬虫平台,同时也会对涉及到的技术进行详细介绍.大 ...

随机推荐

scrapy_redis 实现多进程配置部分代码
# 启用Redis调度存储请求队列SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 确保所有的爬虫通过Redis去重DUPEFILTE ...
修改win7远程桌面端口号
Windows 7/Vista/XP/2003等系统中的远程终端服务是一项功能非常强大的服务,同时也成了入侵者长驻主机的通道,入侵者可以利用一些手段得到管理员账号和密码并入侵主机.下面,我们来看看如何 ...
zabbix agent主动模式与proxy模式，实现公网zabbix监控私网客户机
zabbix agent主动模式,实现公网zabbix监控私网客户机 zabbix_server端当主机数量过多的时候,由Server端去收集数据,Zabbix会出现严重的性能问题,主要表现如下: ...
Mongo db change datadir
To change the location used by MongoDB to store its data, you need to: Edit /etc/mongodb.conf and ch ...
question？
1、redis安装与启动
1.安装包下载官网上下载:http://www.redis.io/ 安装版本:3.0.7 安装环境:CentOS 下载命令:wget http://download.redis.io/release ...
关于电机驱动扩展板 L293D 马达板Arduino
注意端口3,4,5,6,7,8,9,10,11,12会被占用(板子上的pin口). 通过 MS_DCMotor motor(4); 中的4指的是4号电机,同理还有1-3号电机.不是pin口舵机用 ...
deep learning and machine learning
http://blog.csdn.net/xiangz_csdn/article/details/54580053
基于 DirectX11 的 MMDViewer 02-创建一个窗口
项目的创建和配置: 1.新建一个 Win32 空项目 2.创建源码文件夹.库文件夹和资源文件夹 3.在 VS2013(我使用的 IDE 是 vs2013)配置这些文件夹这里使用了 $(Solutio ...
ffmpeg源码分析五：ffmpeg调用x264编码器的过程分析 (转5)
原帖地址:http://blog.csdn.net/austinblog/article/details/25127533 该文将以X264编码器为例,解释说明FFMPEG是怎么调用第三方编码器来进行 ...

[GO]并发的网络爬虫

[GO]并发的网络爬虫的更多相关文章

随机推荐

热门专题