学习地址：

https://www.bilibili.com/video/BV1Nt411H7sP?p=4

目录站：

https://tieba.baidu.com/f?kw=绝地求生&ie=utf-8&pn=0

https://tieba.baidu.com/f?kw=绝地求生&ie=utf-8&pn=50

https://tieba.baidu.com/f?kw=绝地求生&ie=utf-8&pn=100

爬虫概念：

访问ｗｅｂ服务器，获取指定数据信息的一段程序．

工作流程：

明确目标Url．
发送请求，获取应答数据包．
保存，过滤数据．提取有用信息．
使用，分析得到数据信息．

百度贴吧爬虫实现：

go实战代码

单进程

实现过程：

提示用户指定起始，终止页．创建working函数．
使用start,end循环爬取每一页数据．
获取第一页的ｕｒｌ--下一页＝前一页＋５０．
封闭实现HttpGet()函数，爬取一个网页的数据内容，通过result返回．

httpGet/resp.Body.Close/buf:=make(4096)/for
创建.html文件．使用循环因子i命名．
将result写入文件WriteString(result)．f.close() 不推荐使用defer.

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"strconv"

)

// HttpGet ...

func HttpGet(url string) (result string, err error) {

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	//循环读取网页数据，传出给调用者

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			fmt.Println("读取网页完成")

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

func working(start, end int) {

	fmt.Printf("正在爬取第%d页到第%d页．．．\n", start, end)

	// 循环爬取第一页的数据

	for i := start; i <= end; i++ {

		url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)

		result, err := HttpGet(url)

		if err != nil {

			fmt.Println("HttpGet err:", err)

			continue

		}

		// fmt.Println("result=", result)

		//将读到的整网页数据，保存为为文件

		f, err := os.Create("第 " + strconv.Itoa(i) + " 页.html")

		if err != nil {

			fmt.Println("Create err:", err)

			continue

		}

		f.WriteString(result)

		f.Close()

	}

}

func main() {

	var start, end int

	fmt.Print("请输入爬取的起始页（＞＝１）：")

	fmt.Scan(&start)

	fmt.Print("请输入爬取的终止页（＞＝start）：")

	fmt.Scan(&end)

	working(start, end)

}

并发爬取

实现过程：

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"strconv"

)

// HttpGet ...

func HttpGet(url string, i int) (result string, err error) {

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	//循环读取网页数据，传出给调用者

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			fmt.Printf("正在读取第　%d 页\n", i)

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

//SpiderPage ...

func SpiderPage(i int, page chan int) {

	url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)

	result, err := HttpGet(url, i)

	if err != nil {

		fmt.Println("HttpGet err:", err)

		return

	}

	// fmt.Println("result=", result)

	//将读到的整网页数据，保存为为文件

	f, err := os.Create("第 " + strconv.Itoa(i) + " 页．html")

	if err != nil {

		fmt.Println("Create err:", err)

		return

	}

	f.WriteString(result)

	f.Close()

	page <- i

}

func working(start, end int) {

	fmt.Printf("正在爬取第%d页到第%d页．．．\n", start, end)

	page := make(chan int)

	// 循环爬取第一页的数据

	for i := start; i <= end; i++ {

		go SpiderPage(i, page)

	}

	for i := start; i < end; i++ {

		fmt.Printf("第 %d 页都页面完成．．．\n", <-page)

	}

}

func main() {

	var start, end int

	fmt.Print("请输入爬取的起始页（＞＝１）：")

	fmt.Scan(&start)

	fmt.Print("请输入爬取的终止页（＞＝start）：")

	fmt.Scan(&end)

	working(start, end)

}

Golang 爬虫01的更多相关文章

Golang - 爬虫案例实践
目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践 1. 爬虫步骤明确目标(确定在哪个网址搜索) 爬(爬下数据) 取(去掉没用 ...
Golang爬虫示例包系列教程(一):pedaily.com投资界爬虫
Golang爬虫示例包文件结构自己用Golang原生包封装了一个爬虫库,源码见go get -u -v github.com/hunterhug/go_tool/spider ---- data ...
从别人的代码中学习golang系列--01
自己最近在思考一个问题,如何让自己的代码质量逐渐提高,于是想到整理这个系列,通过阅读别人的代码,从别人的代码中学习,来逐渐提高自己的代码质量.本篇是这个系列的第一篇,我也不知道自己会写多少篇,但是希望 ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...
Python爬虫01——第一个小爬虫
Python小爬虫——贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能然后实现对用户所给的链接进行抓取最后要有一定的 ...
Python爬虫-01：爬虫的概念及分类
目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ...
(Python爬虫01)-本想给随笔加个序号才发现这么不方便
本想给随机加个序号,才发现还得去返回看看文章的序号.好在cnblog能断点自动保存. 作为一个小程序员,点赞的同时还在想,谁知道咋实现这种实时保存呢?有知道的给个参考文档呗.太感激了! 重点在这里有 ...
之前写的关于chromedp的文章被别人转到CSDN，很受鼓励，再来一篇golang爬虫实例
示例说明:用chromedp操作chrome,导航到baidu,然后输入“美女”,然后再翻2页,在此过程中保存cookie和所有img标签内容,并保存第一页的baidu logo为png 注释已经比较 ...
爬虫01 /jupyter、爬虫概述、requests基本使用
爬虫02 /jupyter.爬虫概述.requests基本使用目录爬虫02 /jupyter.爬虫概述.requests基本使用 1. jupyter的基本使用 2. 爬虫概述 3. reques ...
python爬虫01在Chrome浏览器抓包
尽量不要用国产浏览器,很多是有后门的 chrome是首选百度按下F12 element标签下对应的HTML代码点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ...

随机推荐

JDK12的新特性:CompactNumberFormat
目录简介 CompactNumberFormat详解自定义CompactNumberFormat 解析CompactNumber 总结 JDK12的新特性:CompactNumberFormat ...
持续构建行业影响力|HarmonyOS SDK荣膺年度“技术卓越”奖项
自2023年9月华为宣布鸿蒙原生应用全面启动以来,HarmonyOS SDK通过将HarmonyOS系统级能力对外开放,支撑开发者高效打造更纯净.更智能.更精致.更易用的鸿蒙原生应用,和开发者共同成长 ...
easyExcel合并数据导出(一对多)
语言 java 框架 ssm 需求 :看图也是导出效果数据库查询为(关系为一对多) 一个学生对应多个课程实现步骤 1.实体类配置, 建议单独写个实体用来导出使用() 学生信息字段正常配置 , ...
什么是MurmurHash
MurmurHash简介 MurmurHash是一种非加密散列函数,名称来自两个基本操作,乘法(MU)和旋转(R).与加密散列函数不同,它不是专门设计为难以被对手逆转,因此不适用于加密目的.在2018 ...
Prometheus之自定义标签
前言: 我们一般通过grafana导入Dashboard模板用来展示数据,但是有时候需要自己定义展示项目,这时需要自己在Prometheus重新自定义标签,并在grafana进行应用. 1.Prome ...
Mac 修改版本号
修改版本号在安装某些软件(XCode)的过程中, 系统会提示版本低,需要升级到高版本, 而很多人不想升级而需要安装这些软件, 此时只需将版本号修改成软件安装要求的版本号就可以了. 由于SystemV ...
linux 允许root 用户登录（旧）
前言旧博客迁移的内容正文 vi /etc/ssh/sshd_config 将PermitRootLogin值改yes service sshd restart
开源数据库PolarDB为什么能捕获娃哈哈的心?
简介: 在10月25日由阿里云开发者社区.PolarDB开源社区.infoQ联合举办的「开源人说」第三期--<数据库PolarDB专场>沙龙上,中启乘数科技(杭州)有限公司联合创始人唐成带 ...
全链路灰度新功能：MSE上线配置标签推送
简介: 微服务场景下,全链路灰度作为一种低成本的新功能验证方式,得到了越来越广泛的应用.除了微服务实例和流量的灰度,微服务应用中的配置项也应该具备相应的灰度能力,以应对灰度应用对特殊配置的诉求. 为什 ...
疫情带火了这款APP：2600个学生一天点赞70万次
这几天,全国中小学生经历了"过山车"一样的心情. 因为疫情的不断蔓延,1月27日,教育部下发通知,2020年春季学期延期开学. 随后,教育部又提出"利用网络平台,停课 ...

Golang 爬虫01

学习地址：

目录站：

爬虫概念：

工作流程：

百度贴吧爬虫实现：

go实战代码

单进程

实现过程：

并发爬取

实现过程：

Golang 爬虫01的更多相关文章

随机推荐

热门专题