package main

import (
"fmt"
"strconv"
"net/http"
"regexp"
"strings"
"os"
) //地址的规律
//第一页:https://www.pengfu.com/xiaohua_1.html
//第二页:https://www.pengfu.com/xiaohua_2.html
//第三页:https://www.pengfu.com/xiaohua_3.html //查看每个页面的源码,可以看到标题的“<h1 class="dp-b"><a href="”有10个,它的实际搜索条件为<h1 class="dp-b"><a href="段子的地址"
//进行到段子的地址后,有两个h1,就是标题,但是我在使用的时候发现网页里有两个地方使用了h1的标签,后面过滤一下,只
//可能过滤到两个,只取一个
//内容开头<div class="content-txt pt10"> 结尾<a id="prev" href="https://www.pengfu.com/content_1850587_1.html"></a> func HttpGet(url string) (result string, err error) {
resp, err1 := http.Get(url)
if err1 != nil {
err = err1
return
}
defer resp.Body.Close() //关闭 //读取网络内容
buf := make([]byte, *)
for true {
n, _ := resp.Body.Read(buf)
if n == {
break
}
result += string(buf[:n])//累加读取的内容
}
return
} func SpiderOneJoy(url string) (title, content string, err error) {
//爬取页面内容
result, err1 := HttpGet(url)
if err1 != nil {
fmt.Println("SpiderOneJoy HttpGet err = ", err)
err = err1
return
}
//取关键信息,标题
re1 := regexp.MustCompile(`<h1>(.*?)</h1>`)
if re1 == nil {
err = fmt.Errorf("%s", "SpiderOneJoy regexp.MustCompile err ")
return
}
//取内容
tmpTitle := re1.FindAllStringSubmatch(result, )//因为我只过滤第一个内容
for _, data := range tmpTitle{
title = data[]
title = strings.Replace(title, "\r", "", -)
title = strings.Replace(title, "\n", "", -)
title = strings.Replace(title, " ", "", -)
title = strings.Replace(title, "\t", "", -)
break
}
//取关键信息,内容
re2 := regexp.MustCompile(`<div class="content-txt pt10">(?s:(.*?))<a id="prev" href="`)
if re2 == nil {
err = fmt.Errorf("%s", "SpiderOneJoy regexp.MustCompile err ")
return
}
//取内容
tmpContent := re2.FindAllStringSubmatch(result, -)
for _, data := range tmpContent{
content = data[]
content = strings.Replace(content, "\r", "", -)
content = strings.Replace(content, "\n", "", -)
content = strings.Replace(content, " ", "", -)
content = strings.Replace(content, "\t", "", -)
content = strings.Replace(content, "\t", "", -)
content = strings.Replace(content, "<br>", "", -)
content = strings.Replace(content, "<br/>", "", -) //这种方式不太好,肯定有更好的办法
break
}
return
} func StoreJoyToFile(i int, fileTitile, fileContent []string) {
//新建文件
f, err := os.Create(strconv.Itoa(i) + ".txt")
if err != nil {
fmt.Println("os.Create err = ", err)
return
} defer f.Close() //写内容
n := len(fileTitile)
for i := ; i < n; i++{
//写标题
f.WriteString(fileTitile[i] + "\n")
//写内容
f.WriteString(fileContent[i] + "\n")
f.WriteString("--------------------------------------\n")
}
} func SpiderPage(i int, page chan <- int) {
url := "https://www.pengfu.com/xiaohua_" + strconv.Itoa(i) + ".html"
fmt.Printf("正在爬取%s\n", url) //爬取页面内容
result, err := HttpGet(url)
if err != nil {
fmt.Println("HttpGet err = ", err)
return
}
//fmt.Println("r = ", result)
//取内容<h1 class="dp-b"><a href="”有10个,它的实际搜索条件为<h1 class="dp-b"><a href="段子的地址",这里只需要地址内容
re := regexp.MustCompile(`<h1 class="dp-b"><a href="(.*?)"`)
if re == nil {
fmt.Println("regexp.MustCompile err ")
return
}
//解析表达式、并取关键信息
joyUrls := re.FindAllStringSubmatch(result, -) fileTitle := make([]string, )
fileContent := make([]string, ) //fmt.Println("url = ", joyUrls)
//取网址,遍历后第一个返回下标,这里不要,第二个返回内容
for _, data := range joyUrls{
fmt.Println("data = ", data[])
//爬取每一个段子
title, content, err := SpiderOneJoy(data[])//它应该返回标题和内容,并可能会有报错,共三个返回值
if err != nil {
fmt.Println("SpiderOneJoy err ", err)
continue
}
//fmt.Printf("title = #%v#\n", title)//使用这种方式打印就能看到结果里是否包含一些空格
//fmt.Printf("content = #%v#\n", content)
fileTitle = append(fileTitle, title) //将所有的标题放在一个切片里
fileContent = append(fileContent, content) //将所有的内容放在一个内容里
}
//将内容写入到文件
StoreJoyToFile(i, fileTitle, fileContent)
page <- i //告诉程序是哪一页爬完了
} func DoWork(start, end int) {
fmt.Printf("准备爬取第%d页到第%d页的网址\n", start, end)
page := make(chan int)
for i:=start; i<=end; i++ {
//定义一个函数,爬主页面
go SpiderPage(i, page)
}
for i:=start; i<=end; i++ {
fmt.Printf("第%d个页面爬取完成", <-page)
}
} func main() {
var start, end int
fmt.Printf("请输入起始页>=1:> ")
fmt.Scan(&start)
fmt.Printf("请输入结束页:> ")
fmt.Scan(&end)
DoWork(start, end)
}

[GO]并的爬取捧腹的段子的更多相关文章

  1. python3制作捧腹网段子页爬虫

    0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...

  2. Python爬虫实战三之爬取嗅事百科段子

    一.前言 俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页 首先我 ...

  3. Python爬虫-爬取糗事百科段子

    闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/h ...

  4. python学习(十六)写爬虫爬取糗事百科段子

    原文链接:爬取糗事百科段子 利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...

  5. Python爬虫实战一之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  6. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  7. 8.Python爬虫实战一之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  8. 爬虫——URL模块爬取糗事百科段子

    最简单的爬取网页找有用信息,难点应该是正则锁定有用信息部分,看了一些其他大神的正则,最后还是决定按照自己理解写一个,果然我头脑相对简单,写出来的粗糙而易理解,也完成了自己想要的需求,就这样了~ # - ...

  9. python爬取糗事百科段子

    初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...

随机推荐

  1. Android软键盘弹出将底部栏顶上去并不会挤压界面

    界面需要,找到了一种不需要去设置android:windowSoftInputMode属性的解决keyboard和layout不适问题 有关设置android:windowSoftInputMode的 ...

  2. 第六章 通过Service访问Pod(下)

    6.4 外网如何访问service (1)ClusterIp: Service通过Cluster内部的IP对外提供服务,只有Cluster内的节点和Pod可以访问,这是默认的Service类型. (2 ...

  3. Codeforces-591C题解

    一.题目链接 http://codeforces.com/problemset/problem/591/C 二.题意 给定一个只含数字0和1的数组,通过如下方式,变成不再变化的01组合,最少需要操作几 ...

  4. Codeforces-20152016-northwestern-european-regional-contest-nwerc-A题

    一.题目 二.题意 (1)一开始理解成:它最多需要开多少台电脑.同时,我又有个疑问,既然是最多需要开多少台,那不变成了总共有几个人开几台是最大的结果.然后,WA了无数发.直到比赛结束......其实说 ...

  5. C语言实现Base64编码/解码

    Bse64是一种以64个可打印字符对二进制数据进行编码的编码算法.base64在对数据进行编码时以三个8位字符型数据为一组,取这三个字符型数据的ASCII码,然后以6位为一组组成4个新的数据,这4个新 ...

  6. SharePoint 事件 2137 / 2138 :SharePoint 运行状况分析器检测到错误。驱动器的可用空间不足。

    转自MSDN:http://technet.microsoft.com/zh-cn/library/ff805057.aspx 摘要:服务器场中的一个或多个服务器上的磁盘驱动器的可用空间不足. 注意: ...

  7. 你知道的,javascript语言的执行环境是"单线程模式",这种模式的好处是实现起来比较简单,执行环境相对单纯;坏处是只要有一个任务耗时很长,后面的任务都必须排队等着,会拖延整个程序的执行,因此很多时候需要进行“异步模式”,请列举js异步编程的方法。

    回调函数,这是异步编程最基本的方法. 事件监听,另一种思路是采用事件驱动模式.任务的执行不取决于代码的顺序,而取决于某个事件是否发生. 发布/订阅,上一节的"事件",完全可以理解成 ...

  8. Python Twisted系列教程20: Twisted和Erlang

    作者:dave@http://krondo.com/twisted-and-erlang/  译者: Cheng Luo 你可以从”第一部分 Twist理论基础“开始阅读:也可以从”Twisted 入 ...

  9. leetcode498

    public class Solution { public int[] FindDiagonalOrder(int[,] matrix) { ); ); + col - ; var ary = ne ...

  10. Eclipse 常用插件地址大全

    安装方式: 使用Eclipse 的自动升级功能,菜单栏选[ Help ]→[ install new Software]  点击[Add]按钮,在“ Name ”中填入“ name (填写一个自己喜欢 ...