Go语言之进阶篇爬捧腹网

1、爬捧腹网

网页规律：

https://www.pengfu.com/xiaohua_1.html 下一页 +1

https://www.pengfu.com/xiaohua_2.html

主页面规律：

<h1 class="dp-b"><a href=" 一个段子url连接 “

段子url:

<h1> 标题 </h1> 只取1个

2、爬捧腹网

示例：并发版本

package main

import (

	"fmt"

	"net/http"

	"os"

	"regexp"

	"strconv"

	"strings"

)

func HttpGet(url string) (result string, err error) {

	resp, err1 := http.Get(url) //发送get请求

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	//读取网页内容

	buf := make([]byte, 4*1024)

	for {

		n, _ := resp.Body.Read(buf)

		if n == 0 {

			break

		}

		result += string(buf[:n]) //累加读取的内容

	}

	return

}

//开始爬取每一个笑话，每一个段子 title, content, err := SpiderOneJoy(url)

func SpiderOneJoy(url string) (title, content string, err error) {

	//开始爬取页面内容

	result, err1 := HttpGet(url)

	if err1 != nil {

		//fmt.Println("HttpGet err = ", err)

		err = err1

		return

	}

	//取关键信息

	//取标题  <h1>  标题 </h1>  只取1个

	re1 := regexp.MustCompile(`<h1>(?s:(.*?))</h1>`)

	if re1 == nil {

		//fmt.Println("regexp.MustCompile err")

		err = fmt.Errorf("%s", "regexp.MustCompile err")

		return

	}

	//取内容

	tmpTitle := re1.FindAllStringSubmatch(result, 1) //最后一个参数为1，只过滤第一个

	for _, data := range tmpTitle {

		title = data[1]

		//		title = strings.Replace(title, "\r", "", -1)

		//		title = strings.Replace(title, "\n", "", -1)

		//		title = strings.Replace(title, " ", "", -1)

		title = strings.Replace(title, "\t", "", -1)

		break

	}

	//取内容 <div class="content-txt pt10"> 段子内容 <a id="prev" href="

	re2 := regexp.MustCompile(`<div class="content-txt pt10">(?s:(.*?))<a id="prev" href="`)

	if re2 == nil {

		//fmt.Println("regexp.MustCompile err")

		err = fmt.Errorf("%s", "regexp.MustCompile err2")

		return

	}

	//取内容

	tmpContent := re2.FindAllStringSubmatch(result, -1)

	for _, data := range tmpContent {

		content = data[1]

		content = strings.Replace(content, "\t", "", -1)

		content = strings.Replace(content, "\n", "", -1)

		content = strings.Replace(content, "\r", "", -1)

		content = strings.Replace(content, "<br />", "", -1)

		break

	}

	return

}

//把内容写入到文件

func StoreJoyToFile(i int, fileTitle, fileContent []string) {

	//新建文件

	f, err := os.Create(strconv.Itoa(i) + ".txt")

	if err != nil {

		fmt.Println("os.Create err = ", err)

		return

	}

	defer f.Close()

	//写内容

	n := len(fileTitle)

	for i := 0; i < n; i++ {

		//写标题

		f.WriteString(fileTitle[i] + "\n")

		//写内容

		f.WriteString(fileContent[i] + "\n")

		f.WriteString("\n=================================================================\n")

	}

}

func SpiderPape(i int, page chan int) {

	//明确爬取的url

	//https://www.pengfu.com/xiaohua_1.html

	url := "https://www.pengfu.com/xiaohua_" + strconv.Itoa(i) + ".html"

	fmt.Printf("正在爬取第%d个网页：%s\n", i, url)

	//开始爬取页面内容

	result, err := HttpGet(url)

	if err != nil {

		fmt.Println("HttpGet err = ", err)

		return

	}

	//fmt.Println("r = ", result)

	//取，<h1 class="dp-b"><a href=" 一个段子url连接   "

	//解释表达式

	re := regexp.MustCompile(`<h1 class="dp-b"><a href="(?s:(.*?))"`)

	if re == nil {

		fmt.Println("regexp.MustCompile err")

		return

	}

	//取关键信息

	joyUrls := re.FindAllStringSubmatch(result, -1)

	//fmt.Println("joyUrls = ", joyUrls)

	fileTitle := make([]string, 0)

	fileContent := make([]string, 0)

	//取网址

	//第一个返回下标，第二个返回内容

	for _, data := range joyUrls {

		//fmt.Println("url = ", data[1])

		//开始爬取每一个笑话，每一个段子

		title, content, err := SpiderOneJoy(data[1])

		if err != nil {

			fmt.Println("SpiderOneJoy err = ", err)

			continue

		}

		//fmt.Printf("title = #%v#", title)

		//fmt.Printf("content = #%v#", content)

		fileTitle = append(fileTitle, title)       //追加内容

		fileContent = append(fileContent, content) //追加内容

	}

	//fmt.Println("fileTitle= ", fileTitle)

	//fmt.Println("fileContent= ", fileContent)

	//把内容写入到文件

	StoreJoyToFile(i, fileTitle, fileContent)

	page <- i //写内容，写num

}

func DoWork(start, end int) {

	fmt.Printf("准备爬取第%d页到%d页的网址\n", start, end)

	page := make(chan int)

	for i := start; i <= end; i++ {

		//定义一个函数，爬主页面

		go SpiderPape(i, page)

	}

	for i := start; i <= end; i++ {

		fmt.Printf("第%d个页面爬取完成\n", <-page)

	}

}

func main() {

	var start, end int

	fmt.Printf("请输入起始页( >= 1) :")

	fmt.Scan(&start)

	fmt.Printf("请输入终止页( >= 起始页) :")

	fmt.Scan(&end)

	DoWork(start, end) //工作函数

}

执行结果：

D:\GoFiles\src\hello_01>go run get_pengfu.go

请输入起始页( >= 1) :1

请输入终止页( >= 起始页) :5

准备爬取第1页到5页的网址

正在爬取第5个网页：https://www.pengfu.com/xiaohua_5.html

正在爬取第2个网页：https://www.pengfu.com/xiaohua_2.html

正在爬取第3个网页：https://www.pengfu.com/xiaohua_3.html

正在爬取第4个网页：https://www.pengfu.com/xiaohua_4.html

正在爬取第1个网页：https://www.pengfu.com/xiaohua_1.html

第4个页面爬取完成

第3个页面爬取完成

第1个页面爬取完成

第5个页面爬取完成

第2个页面爬取完成

Go语言之进阶篇爬捧腹网的更多相关文章

Go语言之进阶篇爬百度贴吧并发版
1.爬百度贴吧并发版示例: package main import ( "fmt" "net/http" "os" "strco ...
python3制作捧腹网段子页爬虫
0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...
Android实战：手把手实现“捧腹网”APP（三）-----UI实现，逻辑实现
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Android实战：手把手实现“捧腹网”APP（二）-----捧腹APP原型设计、实现框架选取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Android实战：手把手实现“捧腹网”APP（一）-----捧腹网网页分析、数据获取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
go语言之进阶篇接口转换
1.go语音之进阶篇示例: package main import "fmt" type Humaner interface { //子集 sayhi() } type Pers ...
go语音之进阶篇爬百度贴吧单线程版本
一.爬什么? 1.明确目标 : 知道你准备在那个范围或者网站去搜索 2.爬: 将所有的网站的内容全部爬下来 3.取:去掉对我们没用处的数据 4.处理数据:按照我们想要的方式存储或使用二.百度贴吧小爬 ...
go语言之进阶篇通过select实现斐波那契数列
一.select作用 Go里面提供了一个关键字select,通过select可以监听channel上的数据流动. select的用法与switch语言非常类似,由select开始一个新的选择块,每个选 ...
go语言之进阶篇创建goroutine协程
1.goroutine是什么 goroutine是Go并行设计的核心.goroutine说到底其实就是协程,但是它比线程更小,十几个goroutine可能体现在底层就是五六个线程,Go语言内部帮你实现 ...

随机推荐

linux环境下source vimrc提示错误unexpected token `"autocmd"'
编辑完vimrc之后,使用source /etc/vimrc之后报错: $ source /etc/vimrc bash: /etc/vimrc: line 15: syntax error near ...
学习ABP遇到的问题汇总
1,在abp官网下载的模板(asp.net+ef)写Application层的时候需要使用AutoMapper.结果ObjectMapper一直为null 解决:需要在当前项目的Module依赖Abp ...
Parted 手册
https://www.gnu.org/software/parted/manual/parted.html#Using-Parted
最长子回文字符串（Manacher’s Algorithm）
# # 大佬博客: https://www.cnblogs.com/z360/p/6375514.html https://blog.csdn.net/zuanfengxiao/article/det ...
BZOJ.1021.[SHOI2008]循环的债务(DP)
题目链接不同面额的钞票是可以分开考虑的. ↑其实并不很明白具体(证明?),反正是可以像背包一样去做. f[x][i][j]表示用前x种面额钞票满足 A有i元 B有j元 (C有sum-i-j)所需交换 ...
java集合之Link的比较
概要前面,我们学完了List的全部内容(ArrayList, LinkedList, Vector, Stack). 现在,我们再回头看看总结一下List.内容包括:第1部分 List概括第2部分 ...
spring cloud 学习(4) - hystrix 服务熔断处理
hystrix 是一个专用于服务熔断处理的开源项目,当依赖的服务方出现故障不可用时,hystrix有一个所谓的断路器,一但打开,就会直接拦截掉对故障服务的调用,从而防止故障进一步扩大(类似中电路中的跳 ...
USB with NXP Microcontrollers
USB with NXP Microcontrollers NXP Advantages NXP's microcontroller portfolio features the latest USB ...
3I工作室的成员在2013年(第6届）中国大学生计算机设计大赛总决赛中荣获全国二等奖
在暑假举行的2013年(第6届)中国大学生计算机设计大赛中,我院的参赛作品<毕业生论文选导系统>(作者:祝丽艳/许明涛:指导老师:元昌安/彭昱忠)入围总决赛,并荣获全国二等奖. 2013年 ...
In-Place upgrade to Team Foundation Server (TFS) 2015 from TFS 2013Team Foundation Server TFS TFS 2015 TFS upgrade TFS with Sharepoint
This upgrade document gives detailed step by step procedure for the In-Place upgrade from TFS 2013 t ...

Go语言之进阶篇爬捧腹网

Go语言之进阶篇爬捧腹网的更多相关文章

随机推荐

热门专题