Golang: 并发抓取网页内容
在上一篇中,我们根据命令行的 URL 参数输入,抓取对应的网页内容并保存到本地磁盘,今天来记录一下如何利用并发,来抓取多个站点的网页内容。
首先,我们在上一次代码的基础上稍作改造,使它能够获取多个站点的内容。下面代码中,我们首先定义好三个 URL,然后逐个发送网络请求,获取数据并保存,最后统计消耗的总时间:
// fetch.go
package main
import (
"os"
"fmt"
"time"
"regexp"
"net/http"
"io/ioutil"
)
// 创建正则常量
var RE = regexp.MustCompile("\\w+\\.\\w+$")
func main() {
urls := []string {
"http://www.qq.com",
"http://www.163.com",
"http://www.sina.com",
}
// 开始时间
start := time.Now()
for _, url := range urls {
start := time.Now()
// 发送网络请求
res, err := http.Get(url)
if err != nil {
fmt.Fprintf(os.Stderr, "fetch: %v\n", err)
os.Exit(1)
}
// 读取资源数据
body, err := ioutil.ReadAll(res.Body)
// 关闭资源
res.Body.Close()
if err != nil {
fmt.Fprintf(os.Stderr, "fetch: reading %s: %v\n", url, err)
os.Exit(1)
}
fileName := getFileName(url)
// 写入文件
ioutil.WriteFile(fileName, body, 0644)
// 消耗的时间
elapsed := time.Since(start).Seconds()
fmt.Printf("%.2fs %s\n", elapsed, fileName)
}
// 消耗的时间
elapsed := time.Since(start).Seconds()
fmt.Printf("%.2fs elapsed\n", elapsed)
}
// 获取文件名
func getFileName(url string) string {
// 从URL中匹配域名后面部分
return RE.FindString(url) + ".txt"
}
在上面代码中,我们使用正则表达式来从 URL 中匹配域名后面部分,作为最终的文件名。关于正则表达式,后续会做总结。
下面来看看程序运行后的控制台信息:
$ ./fetch
0.12s qq.com.txt
0.20s 163.com.txt
0.27s sina.com.txt
0.59s elapsed
从打印信息中可以看出,最后消耗的总时间等于三次执行的总和。这种方式效率低下,并且不能充分利用计算机资源,下面我们就对程序进行改造,使其能够并发地执行三个抓取操作:
// fetch.go
package main
import (
"os"
"fmt"
"time"
"regexp"
"net/http"
"io/ioutil"
)
// 创建正则
var RE = regexp.MustCompile("\\w+\\.\\w+$")
func main() {
urls := []string {
"http://www.qq.com",
"http://www.163.com",
"http://www.sina.com",
}
// 创建channel
ch := make(chan string)
// 开始时间
start := time.Now()
for _, url := range urls {
// 开启一个goroutine
go fetch(url, ch)
}
for range urls {
// 打印channel中的信息
fmt.Println(<-ch)
}
// 总消耗的时间
elapsed := time.Since(start).Seconds()
fmt.Printf("%.2fs elapsed\n", elapsed)
}
// 根据URL获取资源内容
func fetch(url string, ch chan<- string) {
start := time.Now()
// 发送网络请求
res, err := http.Get(url)
if err != nil {
// 输出异常信息
ch <- fmt.Sprint(err)
os.Exit(1)
}
// 读取资源数据
body, err := ioutil.ReadAll(res.Body)
// 关闭资源
res.Body.Close()
if err != nil {
// 输出异常信息
ch <- fmt.Sprintf("while reading %s: %v", url, err)
os.Exit(1)
}
// 写入文件
ioutil.WriteFile(getFileName(url), body, 0644)
// 消耗的时间
elapsed := time.Since(start).Seconds()
// 输出单个URL消耗的时间
ch <- fmt.Sprintf("%.2fs %s", elapsed, url)
}
// 获取文件名
func getFileName(url string) string {
// 从URL中匹配域名部分
return RE.FindString(url) + ".txt"
}
上面代码中,我们先创建一个 channel,然后对每个抓取操作开启一个 goroutine,待抓取程序完成后,通过 channel 发送消息告知主线程,主线程再做相应的处理操作。关于这部分的原理细节,后续再做总结。
我们运行上面的程序,执行结果如下:
$ ./fetch
0.10s http://www.qq.com
0.19s http://www.163.com
0.29s http://www.sina.com
0.29s elapsed
从结果中可以看出,最后消耗的总时间与耗时最长的那个操作等同,可见并发在性能方面带来的提升是非常可观的。
Golang: 并发抓取网页内容的更多相关文章
- Golang高并发抓取HTML图片
Golang高并发抓取HTML图片 使用准备 1.安装Golang 2.下载爬虫包 go get -v github.com/hunterhug/marmot/util go get -v githu ...
- paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog ...
- 使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
- Asp.Net 之 抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...
- ASP.NET抓取网页内容的实现方法
这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下 一.ASP.NET 使用HttpWebRe ...
- ASP.NET抓取网页内容
原文:ASP.NET抓取网页内容 一.ASP.NET 使用HttpWebRequest抓取网页内容 这种方式抓取某些页面会失败 不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的, ...
- c#抓取网页内容乱码的解决方案
写过爬虫的同学都知道,这是个很常见的问题了,一般处理思路是: 使用HttpWebRequest发送请求,HttpWebResponse来接收,判断HttpWebResponse中”Content-Ty ...
- C# 抓取网页内容的方法
1.抓取一般内容 需要三个类:WebRequest.WebResponse.StreamReader 所需命名空间:System.Net.System.IO 核心代码: view plaincopy ...
- python 分别用python2和python3伪装浏览器爬取网页内容
python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容.但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容. 今天我来分享下 ...
随机推荐
- plv8 触发器使用
触发器使用 demo CREATE FUNCTION test_trigger() RETURNS TRIGGER AS $ plv8.elog(NOTICE, "NEW = &quo ...
- 洛谷 P1234 小A的口头禅
这里是传送门啊 I'm here! 题目描述 小A最近有了一个口头禅"呵呵",于是他给出了一个矩形,让你求出里面有几个hehe(方向无所谓). 输入输出格式 输入格式: 第一行两个 ...
- LOJ2778 [BOI2018]基因工程 随机化
题面 不想写了...留坑吧... 基本思想可参照随机化解决判同问题的总结 代码: #include<bits/stdc++.h> using namespace std; #define ...
- 软件工程1916|W(福州大学)_助教博客】个人总结作业(第12次)成绩公示
1.作业链接 个人作业--软件工程实践总结作业 https://edu.cnblogs.com/campus/fzu/SoftwareEngineering1916W/homework/3316 2. ...
- 冰多多团队Gamma阶段项目展示
[冰多多]Gamma项目展示 冰多多项目: 语音coding助手 Gamma阶段目标: 推出一个更加完整的IDE,完善编辑器功能,优化UI 一. 团队成员的简介和个人博客地址 成员 角色 个人博客地址 ...
- React-native 导航插件React Navigation 4.x的使用
React-native 导航插件React Navigation 4.x的使用 文档 英文水平可以的话,建议直接阅读英文文档 简单使用介绍 安装插件 yarn add react-navigatio ...
- Qt 实现超时锁屏
最近使用Qt实现超时锁屏的功能(工控机触摸屏),当手长时间不触摸屏幕的时候,程序超时会显示锁屏窗口. 一.效果 主窗口超时显示锁屏窗口: 系统窗口超时显示锁屏窗口: 二.实现思路 首先开启一个线程用于 ...
- React的状态管理工具
Mobx-React : 当前最适合React的状态管理工具 MobX 简单.可扩展的状态管理 MobX 是由 Mendix.Coinbase.Facebook 开源和众多个人赞助商 ...
- [转帖]Java Netty简介
Java Netty简介 https://www.cnblogs.com/ghj1976/p/3779820.html Posted on 2014-06-10 13:41 蝈蝈俊 阅读(2992) ...
- 利用setenv进行tomcat 内存设置
part.1 系统环境及版本 系统环境: centos 7 版本: tomcat 7.0.78 part.2 步骤流程 2.1 新建setenv.sh # cd /usr/local/tomcat/b ...