Go语言之进阶篇爬捧腹网

1、爬捧腹网

网页规律：

https://www.pengfu.com/xiaohua_1.html 下一页 +1

https://www.pengfu.com/xiaohua_2.html

主页面规律：

<h1 class="dp-b"><a href=" 一个段子url连接 “

段子url:

<h1> 标题 </h1> 只取1个

2、爬捧腹网

示例：并发版本

package main

import (

	"fmt"

	"net/http"

	"os"

	"regexp"

	"strconv"

	"strings"

)

func HttpGet(url string) (result string, err error) {

	resp, err1 := http.Get(url) //发送get请求

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	//读取网页内容

	buf := make([]byte, 4*1024)

	for {

		n, _ := resp.Body.Read(buf)

		if n == 0 {

			break

		}

		result += string(buf[:n]) //累加读取的内容

	}

	return

}

//开始爬取每一个笑话，每一个段子 title, content, err := SpiderOneJoy(url)

func SpiderOneJoy(url string) (title, content string, err error) {

	//开始爬取页面内容

	result, err1 := HttpGet(url)

	if err1 != nil {

		//fmt.Println("HttpGet err = ", err)

		err = err1

		return

	}

	//取关键信息

	//取标题  <h1>  标题 </h1>  只取1个

	re1 := regexp.MustCompile(`<h1>(?s:(.*?))</h1>`)

	if re1 == nil {

		//fmt.Println("regexp.MustCompile err")

		err = fmt.Errorf("%s", "regexp.MustCompile err")

		return

	}

	//取内容

	tmpTitle := re1.FindAllStringSubmatch(result, 1) //最后一个参数为1，只过滤第一个

	for _, data := range tmpTitle {

		title = data[1]

		//		title = strings.Replace(title, "\r", "", -1)

		//		title = strings.Replace(title, "\n", "", -1)

		//		title = strings.Replace(title, " ", "", -1)

		title = strings.Replace(title, "\t", "", -1)

		break

	}

	//取内容 <div class="content-txt pt10"> 段子内容 <a id="prev" href="

	re2 := regexp.MustCompile(`<div class="content-txt pt10">(?s:(.*?))<a id="prev" href="`)

	if re2 == nil {

		//fmt.Println("regexp.MustCompile err")

		err = fmt.Errorf("%s", "regexp.MustCompile err2")

		return

	}

	//取内容

	tmpContent := re2.FindAllStringSubmatch(result, -1)

	for _, data := range tmpContent {

		content = data[1]

		content = strings.Replace(content, "\t", "", -1)

		content = strings.Replace(content, "\n", "", -1)

		content = strings.Replace(content, "\r", "", -1)

		content = strings.Replace(content, "<br />", "", -1)

		break

	}

	return

}

//把内容写入到文件

func StoreJoyToFile(i int, fileTitle, fileContent []string) {

	//新建文件

	f, err := os.Create(strconv.Itoa(i) + ".txt")

	if err != nil {

		fmt.Println("os.Create err = ", err)

		return

	}

	defer f.Close()

	//写内容

	n := len(fileTitle)

	for i := 0; i < n; i++ {

		//写标题

		f.WriteString(fileTitle[i] + "\n")

		//写内容

		f.WriteString(fileContent[i] + "\n")

		f.WriteString("\n=================================================================\n")

	}

}

func SpiderPape(i int, page chan int) {

	//明确爬取的url

	//https://www.pengfu.com/xiaohua_1.html

	url := "https://www.pengfu.com/xiaohua_" + strconv.Itoa(i) + ".html"

	fmt.Printf("正在爬取第%d个网页：%s\n", i, url)

	//开始爬取页面内容

	result, err := HttpGet(url)

	if err != nil {

		fmt.Println("HttpGet err = ", err)

		return

	}

	//fmt.Println("r = ", result)

	//取，<h1 class="dp-b"><a href=" 一个段子url连接   "

	//解释表达式

	re := regexp.MustCompile(`<h1 class="dp-b"><a href="(?s:(.*?))"`)

	if re == nil {

		fmt.Println("regexp.MustCompile err")

		return

	}

	//取关键信息

	joyUrls := re.FindAllStringSubmatch(result, -1)

	//fmt.Println("joyUrls = ", joyUrls)

	fileTitle := make([]string, 0)

	fileContent := make([]string, 0)

	//取网址

	//第一个返回下标，第二个返回内容

	for _, data := range joyUrls {

		//fmt.Println("url = ", data[1])

		//开始爬取每一个笑话，每一个段子

		title, content, err := SpiderOneJoy(data[1])

		if err != nil {

			fmt.Println("SpiderOneJoy err = ", err)

			continue

		}

		//fmt.Printf("title = #%v#", title)

		//fmt.Printf("content = #%v#", content)

		fileTitle = append(fileTitle, title)       //追加内容

		fileContent = append(fileContent, content) //追加内容

	}

	//fmt.Println("fileTitle= ", fileTitle)

	//fmt.Println("fileContent= ", fileContent)

	//把内容写入到文件

	StoreJoyToFile(i, fileTitle, fileContent)

	page <- i //写内容，写num

}

func DoWork(start, end int) {

	fmt.Printf("准备爬取第%d页到%d页的网址\n", start, end)

	page := make(chan int)

	for i := start; i <= end; i++ {

		//定义一个函数，爬主页面

		go SpiderPape(i, page)

	}

	for i := start; i <= end; i++ {

		fmt.Printf("第%d个页面爬取完成\n", <-page)

	}

}

func main() {

	var start, end int

	fmt.Printf("请输入起始页( >= 1) :")

	fmt.Scan(&start)

	fmt.Printf("请输入终止页( >= 起始页) :")

	fmt.Scan(&end)

	DoWork(start, end) //工作函数

}

执行结果：

D:\GoFiles\src\hello_01>go run get_pengfu.go

请输入起始页( >= 1) :1

请输入终止页( >= 起始页) :5

准备爬取第1页到5页的网址

正在爬取第5个网页：https://www.pengfu.com/xiaohua_5.html

正在爬取第2个网页：https://www.pengfu.com/xiaohua_2.html

正在爬取第3个网页：https://www.pengfu.com/xiaohua_3.html

正在爬取第4个网页：https://www.pengfu.com/xiaohua_4.html

正在爬取第1个网页：https://www.pengfu.com/xiaohua_1.html

第4个页面爬取完成

第3个页面爬取完成

第1个页面爬取完成

第5个页面爬取完成

第2个页面爬取完成

Go语言之进阶篇爬捧腹网的更多相关文章

Go语言之进阶篇爬百度贴吧并发版
1.爬百度贴吧并发版示例: package main import ( "fmt" "net/http" "os" "strco ...
python3制作捧腹网段子页爬虫
0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...
Android实战：手把手实现“捧腹网”APP（三）-----UI实现，逻辑实现
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Android实战：手把手实现“捧腹网”APP（二）-----捧腹APP原型设计、实现框架选取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
Android实战：手把手实现“捧腹网”APP（一）-----捧腹网网页分析、数据获取
Android实战:手把手实现"捧腹网"APP(一)-–捧腹网网页分析.数据获取 Android实战:手把手实现"捧腹网"APP(二)-–捧腹APP原型设计.实 ...
go语言之进阶篇接口转换
1.go语音之进阶篇示例: package main import "fmt" type Humaner interface { //子集 sayhi() } type Pers ...
go语音之进阶篇爬百度贴吧单线程版本
一.爬什么? 1.明确目标 : 知道你准备在那个范围或者网站去搜索 2.爬: 将所有的网站的内容全部爬下来 3.取:去掉对我们没用处的数据 4.处理数据:按照我们想要的方式存储或使用二.百度贴吧小爬 ...
go语言之进阶篇通过select实现斐波那契数列
一.select作用 Go里面提供了一个关键字select,通过select可以监听channel上的数据流动. select的用法与switch语言非常类似,由select开始一个新的选择块,每个选 ...
go语言之进阶篇创建goroutine协程
1.goroutine是什么 goroutine是Go并行设计的核心.goroutine说到底其实就是协程,但是它比线程更小,十几个goroutine可能体现在底层就是五六个线程,Go语言内部帮你实现 ...

随机推荐

使用eclipse svn塔建（配置）时的一点点心得
有没有人遇到下面这种情况??自己创建的SVN如下: 但网上别人搭建好的是这样子的: 就是为什么我的只有个主文件,而没有src.webroot.meta-inf.web-inf等子文件呢?? 这是我找了 ...
InnoDB的锁机制浅析(一)—基本概念/兼容矩阵
InnoDB锁的基本概念文章总共分为五个部分: InnoDB的锁机制浅析(一)-基本概念/兼容矩阵 InnoDB的锁机制浅析(二)-探索InnoDB中的锁(Record锁/Gap锁/Next-key ...
win7如何不用点击用户名直接自动登录桌面
在 win7 系统中开机时必须点击相应的用户名才能登陆系统桌面那么如何取消这一功能使当前账户自动登录到系统桌面呢? 一. win7 如何自动登录 .在开始菜单搜索框输入 “netplwiz” 按回 ...
Codeforces Beta Round #14 (Div. 2) D. Two Paths 树形dp
D. Two Paths 题目连接: http://codeforces.com/contest/14/problem/D Description As you know, Bob's brother ...
j.u.c系列（05）---之重入锁：ReentrantLock
写在前面 ReentrantLock,可重入锁,是一种递归无阻塞的同步机制.它可以等同于synchronized的使用,但是ReentrantLock提供了比synchronized更强大.灵活的锁机 ...
新手学cocos2dx,centos7下的安装过程
背景打算学写游戏,新手向,当然从cocos2d-x开始. 看了cocos的文档,安装是针对ubuntu的,这里记录下centos7上安装.编译.运行测试的过程. 如果你已经有ubuntu,不推荐看此 ...
spring cloud 学习(4) - hystrix 服务熔断处理
hystrix 是一个专用于服务熔断处理的开源项目,当依赖的服务方出现故障不可用时,hystrix有一个所谓的断路器,一但打开,就会直接拦截掉对故障服务的调用,从而防止故障进一步扩大(类似中电路中的跳 ...
leetcode——169 Majority Element（数组中出现次数过半的元素）
Given an array of size n, find the majority element. The majority element is the element that appear ...
TWebHttpRequest使用
TWebHttpRequest使用 TWebHttpRequest通过HTTP GET方法,向中间件REST API申请数据. procedure TForm1.WebButton1Click(Sen ...
T4：使用 T4 消除程序和配置文件中重复的字符串信息
背景我们经常在配置文件中配置各种:id.name,然后在程序中使用这些配置获取信息,这导致了字符串重复出现在系统的多个地方,非常不利于维护,本文介绍采用 T4 来消除这种重复. T4 消除重复配置 ...

Go语言之进阶篇爬捧腹网

Go语言之进阶篇爬捧腹网的更多相关文章

随机推荐

热门专题