学习地址：

https://www.bilibili.com/video/BV1Nt411H7sP?p=4

目录站：

https://tieba.baidu.com/f?kw=绝地求生&ie=utf-8&pn=0

https://tieba.baidu.com/f?kw=绝地求生&ie=utf-8&pn=50

https://tieba.baidu.com/f?kw=绝地求生&ie=utf-8&pn=100

爬虫概念：

访问ｗｅｂ服务器，获取指定数据信息的一段程序．

工作流程：

明确目标Url．
发送请求，获取应答数据包．
保存，过滤数据．提取有用信息．
使用，分析得到数据信息．

百度贴吧爬虫实现：

go实战代码

单进程

实现过程：

提示用户指定起始，终止页．创建working函数．
使用start,end循环爬取每一页数据．
获取第一页的ｕｒｌ--下一页＝前一页＋５０．
封闭实现HttpGet()函数，爬取一个网页的数据内容，通过result返回．

httpGet/resp.Body.Close/buf:=make(4096)/for
创建.html文件．使用循环因子i命名．
将result写入文件WriteString(result)．f.close() 不推荐使用defer.

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"strconv"

)

// HttpGet ...

func HttpGet(url string) (result string, err error) {

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	//循环读取网页数据，传出给调用者

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			fmt.Println("读取网页完成")

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

func working(start, end int) {

	fmt.Printf("正在爬取第%d页到第%d页．．．\n", start, end)

	// 循环爬取第一页的数据

	for i := start; i <= end; i++ {

		url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)

		result, err := HttpGet(url)

		if err != nil {

			fmt.Println("HttpGet err:", err)

			continue

		}

		// fmt.Println("result=", result)

		//将读到的整网页数据，保存为为文件

		f, err := os.Create("第 " + strconv.Itoa(i) + " 页.html")

		if err != nil {

			fmt.Println("Create err:", err)

			continue

		}

		f.WriteString(result)

		f.Close()

	}

}

func main() {

	var start, end int

	fmt.Print("请输入爬取的起始页（＞＝１）：")

	fmt.Scan(&start)

	fmt.Print("请输入爬取的终止页（＞＝start）：")

	fmt.Scan(&end)

	working(start, end)

}

并发爬取

实现过程：

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"strconv"

)

// HttpGet ...

func HttpGet(url string, i int) (result string, err error) {

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	//循环读取网页数据，传出给调用者

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			fmt.Printf("正在读取第　%d 页\n", i)

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

//SpiderPage ...

func SpiderPage(i int, page chan int) {

	url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)

	result, err := HttpGet(url, i)

	if err != nil {

		fmt.Println("HttpGet err:", err)

		return

	}

	// fmt.Println("result=", result)

	//将读到的整网页数据，保存为为文件

	f, err := os.Create("第 " + strconv.Itoa(i) + " 页．html")

	if err != nil {

		fmt.Println("Create err:", err)

		return

	}

	f.WriteString(result)

	f.Close()

	page <- i

}

func working(start, end int) {

	fmt.Printf("正在爬取第%d页到第%d页．．．\n", start, end)

	page := make(chan int)

	// 循环爬取第一页的数据

	for i := start; i <= end; i++ {

		go SpiderPage(i, page)

	}

	for i := start; i < end; i++ {

		fmt.Printf("第 %d 页都页面完成．．．\n", <-page)

	}

}

func main() {

	var start, end int

	fmt.Print("请输入爬取的起始页（＞＝１）：")

	fmt.Scan(&start)

	fmt.Print("请输入爬取的终止页（＞＝start）：")

	fmt.Scan(&end)

	working(start, end)

}

Golang 爬虫01的更多相关文章

Golang - 爬虫案例实践
目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践 1. 爬虫步骤明确目标(确定在哪个网址搜索) 爬(爬下数据) 取(去掉没用 ...
Golang爬虫示例包系列教程(一):pedaily.com投资界爬虫
Golang爬虫示例包文件结构自己用Golang原生包封装了一个爬虫库,源码见go get -u -v github.com/hunterhug/go_tool/spider ---- data ...
从别人的代码中学习golang系列--01
自己最近在思考一个问题,如何让自己的代码质量逐渐提高,于是想到整理这个系列,通过阅读别人的代码,从别人的代码中学习,来逐渐提高自己的代码质量.本篇是这个系列的第一篇,我也不知道自己会写多少篇,但是希望 ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...
Python爬虫01——第一个小爬虫
Python小爬虫——贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能然后实现对用户所给的链接进行抓取最后要有一定的 ...
Python爬虫-01：爬虫的概念及分类
目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ...
(Python爬虫01)-本想给随笔加个序号才发现这么不方便
本想给随机加个序号,才发现还得去返回看看文章的序号.好在cnblog能断点自动保存. 作为一个小程序员,点赞的同时还在想,谁知道咋实现这种实时保存呢?有知道的给个参考文档呗.太感激了! 重点在这里有 ...
之前写的关于chromedp的文章被别人转到CSDN，很受鼓励，再来一篇golang爬虫实例
示例说明:用chromedp操作chrome,导航到baidu,然后输入“美女”,然后再翻2页,在此过程中保存cookie和所有img标签内容,并保存第一页的baidu logo为png 注释已经比较 ...
爬虫01 /jupyter、爬虫概述、requests基本使用
爬虫02 /jupyter.爬虫概述.requests基本使用目录爬虫02 /jupyter.爬虫概述.requests基本使用 1. jupyter的基本使用 2. 爬虫概述 3. reques ...
python爬虫01在Chrome浏览器抓包
尽量不要用国产浏览器,很多是有后门的 chrome是首选百度按下F12 element标签下对应的HTML代码点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ...

随机推荐

UE4中的GamePlay模块
链接该文档主要通过学习自己构建文件,形成GamePlay模块.下图是利用引擎创建的一个空模板C++代码结构简要流程 UBT 虚幻编译工具(UBT:Unreal Build Tool)是一个自定义工 ...
Python连接mysql数据库和关闭数据库的方法
1 import pymysql 2 def get_conn(): 3 """ 4 :return: 连接,游标 5 """ 6 # 创建 ...
数据库知识 DDL/DML/DCL
DDL DDL的概述 DDL(Data Definition Language 数据定义语言)用于操作对象和对象的属性,这种对象包括数据库本身,以及数据库对象,像:表.视图等等,DDL对这些对象和属性 ...
13 CSS 的position属性
13 CSS 的position属性就像photoshop中的图层功能会把一整张图片分层一个个图层一样,网页布局中的每一个元素也可以看成是一个个类似图层的层模型.层布局模型就是把网页中的每一个元素看 ...
#树，搜索#NOIP2020.9.26模拟tom
分析考虑最极端的情况也就是TOM天天吃早餐肠或者晚餐肠, 那么早餐肠和晚餐肠应分别构成一个互不相交连通块, 所以题目转换成是否有一个点的子树大小为\(a\)或\(b\), 将这个点与它父亲的边断开就 ...
VS 在 Release 模式下使用断点调试程序
修改方法: 项目属性 --> c/c++ --> 常规 --> 调试信息格式选择程序数据库 (默认:无) 项目属性 --> c/c++ --> 优化 --> 优化 ...
jemter返回结果中文乱码
如图,返回的结果,中文出现乱码对于这个问题有两种解决方法第一种:修改jemeter文件,需要重启jemter 在 bin 目录下,找到 jmeter.properties 这个文件,修改编码格 ...
NodeJs进阶开发、性能优化指南
相信对于前端同学而言,我们去开发一个自己的简单后端程序可以借助很多的nodeJs的框架去进行快速搭建,但是从前端面向后端之后,我们会在很多方面会稍显的有些陌生,比如性能分析,性能测试,内存管理,内存查 ...
react中引入css的方式有哪几种？区别？
一.是什么组件式开发选择合适的css解决方案尤为重要通常会遵循以下规则: 可以编写局部css,不会随意污染其他组件内的原生: 可以编写动态的css,可以获取当前组件的一些状态,根据状态的变化生成不 ...
SVM简单分类的使用 sklearn机器学习
# sklearn 库中导入 svm 模块 from sklearn import svm # 定义三个点和标签 X = [[2, 0], [1, 1], [2,3]] y = [0, 0, 1] # ...

Golang 爬虫01

学习地址：

目录站：

爬虫概念：

工作流程：

百度贴吧爬虫实现：

go实战代码

单进程

实现过程：

并发爬取

实现过程：

Golang 爬虫01的更多相关文章

随机推荐

热门专题