爬取百度贴吧的网页

非并发版

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"strconv"

)

func HttpGet(url string) (result string, err error) {

	//	var result string

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			fmt.Println("读取网页完成")

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

func working(start, end int) {

	fmt.Printf("正在爬取第%d到第%d页", start, end)

	//爬取每一个网页

	for i := start; i <= end; i++ {

		url := "https://tieba.baidu.com/f?kw=vue&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)

		result, err := HttpGet(url)

		if err != nil {

			fmt.Println("httpGet err", err)

			continue

		}

		//		fmt.Println("result", result)

		f, err := os.Create("第" + strconv.Itoa(i) + "页" + ".html")

		if err != nil {

			fmt.Println("HttpGet err", err)

			continue

		}

		f.WriteString(result)

		f.Close()

	}

}

func main() {

	var start, end int

	fmt.Print("请输入起始页。。。")

	fmt.Scan(&start)

	fmt.Print("请输入终止页。。。")

	fmt.Scan(&end)

	working(start, end)

}

并发版

这个只是在上面的基础上加了管道和开了协程

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"strconv"

)

func HttpGet(url string) (result string, err error) {

	//	var result string

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			fmt.Println("读取网页完成\n")

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

func SpiderPage(index int, page chan int) {

	fmt.Printf("正在爬取第%d到页\n", index)

	//爬取每一个网页

	//	for i := start; i <= end; i++ {

	url := "https://tieba.baidu.com/f?kw=vue&ie=utf-8&pn=" + strconv.Itoa((index-1)*50)

	result, err := HttpGet(url)

	if err != nil {

		fmt.Println("httpGet err", err)

		return

	}

	//		fmt.Println("result", result)

	f, err := os.Create("第" + strconv.Itoa(index) + "页" + ".html")

	if err != nil {

		fmt.Println("HttpGet err", err)

		return

	}

	f.WriteString(result)

	f.Close()

	//	}

	page <- index

}

func working2(start, end int) {

	fmt.Printf("正在爬取第%d页到%d页\n", start, end)

	page := make(chan int)

	for i := start; i <= end; i++ {

		go SpiderPage(i, page)

	}

	for i := start; i <= end; i++ {

		fmt.Printf("第%d个页面爬取完成\n", <-page)

	}

}

func main() {

	var start, end int

	fmt.Print("请输入起始页。。。")

	fmt.Scan(&start)

	fmt.Print("请输入终止页。。。")

	fmt.Scan(&end)

	working2(start, end)

}

go-爬虫-百度贴吧（并发版）的更多相关文章

Go语言之进阶篇爬百度贴吧并发版
1.爬百度贴吧并发版示例: package main import ( "fmt" "net/http" "os" "strco ...
go并发版爬虫
并发版爬虫代码实现 /crawler/main.go package main import ( "learn/crawler/engine" "learn/crawl ...
【教程】模拟登陆百度之Java代码版
[背景] 之前已经写了教程,分析模拟登陆百度的逻辑: [教程]手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程然后又去用不同的语言: Python的: [教程]模 ...
【pyhon】nvshens按目录图片批量下载爬虫1.00（多线程版）
# nvshens按目录图片批量下载爬虫1.00(多线程版) from bs4 import BeautifulSoup import requests import datetime import ...
利用百度API（JavaScript 版）实现在地图上绘制任一多边形，并判断给定经纬度是否在多边形范围内。以及两点间的测距功能
权声明:本文为博主原创文章,未经博主允许不得转载. 利用百度API(JavaScript 版)实现在地图上绘制任一多边形,并判断给定经纬度是否在多边形范围内.以及两点间的测距功能. 绘制多边形(蓝色) ...
Go HelloWorld 网络版和并发版
网络版 package main import ( "net/http" "fmt" ) func main() { http.HandleFunc(" ...
mac百度网盘破解版
以下资源来源于网络收集分享,如有问题请联系我删除!来源入口,后面链接挂了,可去原网址访问! 还在为Mac百度网盘下载速度慢而烦恼吗?百度云盘又是一个非常实用的分享工具,可支持图片.视频.音乐.文档.种 ...
百度网盘Mac版如何分享链接？创建百度网盘 for Mac分享链接的方法
想把自己百度网盘里的数据分享给朋友,该怎么操作呢?有很多朋友使用百度网盘,可以很轻松的自己的文件上传到网盘上,并可跨终端随时随地查看和分享.下面Mac down小编就给大家介绍一下创建百度网盘 for ...
Python爬虫-百度模拟登录（二）
上一篇-Python爬虫-百度模拟登录(一) 接上一篇的继续参数 codestring codestring jxG9506c1811b44e2fd0220153643013f7e6b1898075 ...

随机推荐

Python爬虫的概括以及实战
第一章主要讲解爬虫相关的知识如:http.网页.爬虫法律等,让大家对爬虫有了一个比较完善的了解和一些题外的知识点. 今天这篇文章将是我们第二章的第一篇,我们从今天开始就正式进入实战阶段,后面将会有更 ...
使用 html2canvas 点击保存时把当前页面生成图片
style: #box{ background-image:url('./img/pone.png') } body: <div id="box" ...
java获取当前年份、月份和日期字符串等
Java获取当前年份.月份和日期是通过Calendar类的实例对象来获取的. 首先创建一个Calendar类的实例对象,Calendar类属于java.util包. Calendar calendar ...
Python 爬虫从入门到进阶之路（二）
上一篇文章我们对爬虫有了一个初步认识,本篇文章我们开始学习 Python 爬虫实例. 在 Python 中有很多库可以用来抓取网页,其中内置了 urllib 模块,该模块就能实现我们基本的网页爬取. ...
[Java 开发利器Lombok] 常用注解演示
在以往的对象模型编码时,我们需要写一大堆的get/set以及不同的构造函数等.Lombok为我们提供了一个非常好的插件形式. 在大多数的项目中,只需要使用到以下集中Annotation就足够了,如果需 ...
Python3---标准库---urllib
前言该文章主要说明Python3 标准库urllib的使用. 修改时间:20191216 修改时间:20191217 修改时间:20191218 添加urllib.parse.urlencode,u ...
SSH框架之Hibernate第二篇
1.1 持久化类的编写规则 1.1.1 什么是持久化类? 持久化类 : 与表建立了映射关系的实体类,就可以称之为持久化类. 持久化类 = Java类 + 映射文件. 1.1.2 持久化类的编写规则 ( ...
javaWeb技术第二篇之CSS、事件和案例
<!--内联式 CSS (层叠样式表) 编辑层叠样式表(英文全称:Cascading Style Sheets) CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式 ...
arcgis api 4.x for js 集成 Echarts4 实现模拟迁徙图效果（附源码下载）
前言关于本篇功能实现用到的 api 涉及类看不懂的,请参照 esri 官网的 arcgis api 4.x for js:esri 官网 api,里面详细的介绍 arcgis api 4.x 各个类 ...
IntelliJ IDEA中你应该知道的快捷键
IDEA官方所有快捷键:参考:https://resources.jetbrains.com/storage/products/intellij-idea/docs/IntelliJIDEA_Refe ...

go-爬虫-百度贴吧（并发版）

爬取百度贴吧的网页

非并发版

并发版

go-爬虫-百度贴吧（并发版）的更多相关文章

随机推荐

热门专题