爬取搞笑的段子，横向爬取+纵向爬取

横向爬取爬页数，纵向爬取，爬每页的内容

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"regexp"

	"strconv"

	"strings"

)

func HttpGet(url string) (result string, err error) {

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

func SaveJoke2File(idx int, fileTitle, fileContent []string) {

	path := "第" + strconv.Itoa(idx) + "页.txt"

	f, err := os.Create(path)

	if err != nil {

		fmt.Println("err:", err)

		return

	}

	defer f.Close()

	n := len(fileTitle)

	for i := 0; i < n; i++ {

		f.WriteString(fileTitle[i] + "\n" + fileContent[i] + "\n")

		f.WriteString("-----------------------------\n")

	}

}

//抓取一个网页

func Spiderpage(idx int, page chan int) {

	url := "https://m.pengfue.com/xiaohua_" + strconv.Itoa(idx) + ".html"

	result, err := HttpGet(url)

	if err != nil {

		fmt.Println("httpget err", err)

		return

	}

	ret := regexp.MustCompile(`<h1 class="f18"><a href="(?s:(.*?))"`)

	alls := ret.FindAllStringSubmatch(result, -1)

	fileTitle := make([]string, 0)

	fileContent := make([]string, 0)

	for _, jokeURL := range alls {

		//		fmt.Println("jokeURL", jokeURL[1])

		title, content, err := SpiderJokePage(jokeURL[1])

		if err != nil {

			fmt.Println("err:", err)

			continue

		}

		//		fmt.Println("title:", title)

		//		fmt.Println("content:", content)

		fileTitle = append(fileTitle, title)

		fileContent = append(fileContent, content)

	}

	SaveJoke2File(idx, fileTitle, fileContent)

	page <- idx

}

func toWork(start, end int) {

	fmt.Printf("正在爬取%d到%d页。。。\n", start, end)

	page := make(chan int)

	for i := start; i <= end; i++ {

		//		title, content, err := Spiderpage(i)

		go Spiderpage(i, page)

		//		if err != nil {

		//			fmt.Println("err:", err)

		//			continue

		//		}

		//		fmt.Println("title:", title)

		//		fmt.Println("content:", content)

	}

	for i := start; i <= end; i++ {

		fmt.Printf("第%d个页面爬取完成\n", <-page)

	}

}

func SpiderJokePage(url string) (title, content string, err error) {

	result, err1 := HttpGet(url)

	if err1 != nil {

		//		fmt.Println("httpget err", err)

		err = err1

		return

	}

	ret1 := regexp.MustCompile(`<title>(?s:(.*?))</title>`)

	alls := ret1.FindAllStringSubmatch(result, 1) //两处，取一个

	for _, timTitle := range alls {

		title = timTitle[1]

		title = strings.Replace(title, " ", "", -1)

		title = strings.Replace(title, "\n", "", -1)

		break

	}

	ret2 := regexp.MustCompile(`<div class="con-txt">(?s:(.*?))</div>`)

	alls2 := ret2.FindAllStringSubmatch(result, 1) //两处，取一个

	for _, timTitle := range alls2 {

		content = timTitle[1]

		content = strings.Replace(content, " ", "", -1)

		content = strings.Replace(content, "\n", "", -1)

		content = strings.Replace(content, "	", "", -1)

		content = strings.Replace(content, "&nbsp;", "", -1)

		break

	}

	return

}

func main() {

	var start, end int

	fmt.Print("请输入起始页。。。")

	fmt.Scan(&start)

	fmt.Print("请输入终止页。。。")

	fmt.Scan(&end)

	toWork(start, end)

}

go-爬段子的更多相关文章

scrapy框架安装配置
scrapy框架 scrapy安装(win) 1.pip insatll wheel 2.下载合适的版本的twisted:http://www.lfd.uci.edu/~gohlke/pythonli ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
利用python的爬虫技术爬去糗事百科的段子
初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页技术实现:基于python的实现, ...
Python爬虫实战三之爬取嗅事百科段子
一.前言俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页首先我 ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
python内涵段子爬取练习
# -*- coding:utf-8 -*-from urllib import request as urllib2import re# 利用正则表达式爬取内涵段子url = r'http://ww ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/h ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
【Python爬虫实战】多线程爬虫---糗事百科段子爬取
多线程爬虫:即程序中的某些程序段并行执行,合理地设置多线程,可以让爬虫效率更高糗事百科段子普通爬虫和多线程爬虫分析该网址链接得出:https://www.qiushibaike.com/8hr/pag ...

随机推荐

【SHOI 2007】善意的投票
Problem Description 幼儿园里有 \(n\) 个小朋友打算通过投票来决定睡不睡午觉.对他们来说,这个问题并不是很重要,于是他们决定发扬谦让精神.虽然每个人都有自己的主见,但是为了照顾 ...
一起学MyBatis之入门篇
概述本文以一个简单的小例子,简述在Java项目开发中MyBatis的基本用法,属于入门级文章,仅供学习分享使用,如有不足之处,还请指正. 什么是MyBatis? MyBatis 是一款优秀的持久层框 ...
Windows密码获取和破解(初探)
Windows密码获取和破解本文只是简单的讲明密码获取和破解具体的操作细节均以模糊或具体代码混淆等方式避开如有兴趣请自行研究,本文不做细说~~~ 获取思路: Windows密码一般是以" ...
arcgis api 4.x for js 聚合效果图(附源码下载)
前言关于本篇功能实现用到的 api 涉及类看不懂的,请参照 esri 官网的 arcgis api 4.x for js:esri 官网 api,里面详细的介绍 arcgis api 4.x 各个类 ...
Android App内文档展示方案整理
一.Word.Excel.PPT 展示 1. 微软Office公开Api接口如果文档内容不是很机密或者只是需要实现预览文档的话,可以考虑使用微软的公共Api接口实现. 微软Office公开Api地址 ...
oop面向对象【类与对象、封装、构造方法】
今日内容 1.面向对象 2.类与对象 3.三大特征——封装 4.构造方法教学目标 1.能够理解面向对象的思想 2.能够明确类与对象关系 3.能够掌握类的定义格式 4.能够掌握创建对象格式,并访问类中 ...
EtreCheck是否修复恶意软件和广告软件？为什么EtreCheck无法制作截图？
EtreCheck for Mac是一款Mac上的软件,有很对人对这款软件并不熟系,今天小编就来给大家介绍一下这款软件最常出现的问题—EtreCheck是否修复恶意软件和广告软件?为什么EtreChe ...
C++之运算符优先级顺序表
[注] sizeof 的操作数不能是 C 风格转型:表达式 sizeof (int) * p 无歧义地解释成 (sizeof(int)) * p ,而非 sizeof((int)*p). 条件运算符中 ...
中国古风唯美水墨工作计划汇报PPT模板推荐
模版来源:http://ppt.dede58.com/
ling to sql创建临时变量 let的使用
使用let赋值给临时变量 var dailys = from f in _postgreDbContext.draws let temp = f.review_time.Value.Date wher ...

go-爬段子

爬取搞笑的段子，横向爬取+纵向爬取

go-爬段子的更多相关文章

随机推荐

热门专题