[GO]百度贴吧的爬虫

package main

import (

    "fmt"

    "strconv"

    "net/http"

    "os"

    "io"

)

//百度贴吧的地址规律

//第一页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8(&pn=0)

//第二页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=50

//第三页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=100

//所以它的最后的数字每加50,代表着下一页

//整体提取的思路：

//1、先拿地址

//2、爬

//3、取

//4、存

func HttpGet(url string) (result string, err error) {

    resp, err1 := http.Get(url)

    if err != nil {

        err = err1

        return

    }

    defer resp.Body.Close()

    //读取网页的body内容

    buf := make([]byte, *)

    for true {

        n, err := resp.Body.Read(buf)

        if err != nil {

            if err == io.EOF{

                fmt.Println("文件读取完毕")

                break

            }else {

                fmt.Println("resp.Body.Read err = ", err)

                break

            }

        }

        result += string(buf[:n])

    }

    return

}

func DoWork(start, end int)  {

    fmt.Printf("正在爬取第%d页到%d页\n", start, end)

    for i:=start; i<=end; i++ {

        url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-)*)

        //爬,将所有的网页内容爬取下来

        result, err := HttpGet(url)

        if err != nil {

            fmt.Println("http.Get err = ", err)

            continue

        }

        //把内容写入到文件

        filename := strconv.Itoa((i-)*) + ".html"

        f, err1 := os.Create(filename)

        if err1 != nil{

            fmt.Println("os.Create err = ", err1)

            continue

        }

        //写内容

        f.WriteString(result)

        //关闭文件

        f.Close()

    }

}

func main() {

    var start, end int

    fmt.Printf("请输入起始页>=1：> ")

    fmt.Scan(&start)

    fmt.Printf("请输入结束页：> ")

    fmt.Scan(&end)

    DoWork(start, end)

}

[GO]百度贴吧的爬虫的更多相关文章

百度知道的php爬虫
原文地址:百度知道的php爬虫作者:好宏杰软件 <?php class spider { private $content ; private $contentlen ; p ...
“希希敬敬对”团队--‘百度贴吧小爬虫’Alpha版本展示博客
希希敬敬对的 Alpha阶段测试报告随笔链接地址 https://www.cnblogs.com/xiaoyoushang/p/10078826.html Alpha版本发布说明随笔链接地址 ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
百度贴吧的网络爬虫（v0.4）源码及解析
更新:感谢评论中朋友的提醒,百度贴吧现在已经改成utf-8编码了吧,需要把代码中的decode('gbk')改成decode('utf-8'). 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都 ...
百度翻译爬虫-Web版(自动生成sign)
# 面向对象 # 百度翻译 -- 网页版(自动获取token,sign) import requests import js2py import json import re class WebFan ...
[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8934726 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键 ...
Python爬虫教程-05-python爬虫实现百度翻译
使用python爬虫实现百度翻译功能 python爬虫实现百度翻译: python解释器[模拟浏览器],发送[post请求],传入待[翻译的内容]作为参数,获取[百度翻译的结果] 通过开发者工具,获取 ...
Python爬虫教程-实现百度翻译
使用python爬虫实现百度翻译功能python爬虫实现百度翻译: python解释器[模拟浏览器],发送[post请求],传入待[翻译的内容]作为参数,获取[百度翻译的结果] 通过开发者工具,获取发 ...
SuperSpider——打造功能强大的爬虫利器
SuperSpider——打造功能强大的爬虫利器 1.爬虫的介绍图1-1 爬虫(spider) 网络爬虫(web spider)是一个自动的通过网络抓取互联网上的网页的程序,在当今互联网中 ...

随机推荐

canvas之旋转一条线段
<canvas id="canvas" width="600" height="500" style="background ...
buffer cache 深度解析
本文首先详细介绍了oracle中buffer cache的概念以及所包含的内存结构.然后结合各个后台进程(包括DBWRn.CKPT.LGWR等)深入介绍了oracle对于buffer cache的管理 ...
.net Reactor之限定日期内使用，限定使用次数，限定使用时间
.net Reactor之限定日期内使用,限定使用次数,限定使用时间上一篇(https://www.cnblogs.com/s313139232/p/9908833.html)详细的记录了.net ...
基于vue-easytable实现数据的增删改查
基于vue-easytable实现数据的增删改查原理:利用vue的数据绑定和vue-easetable的ui完成增删改查后端接口: 1.条件查询表中数据 http://localhost:4795 ...
delphi IOS 简单类型转换
aUrl: NSString; cmdurl: NSURL; AbsoluteFileName: string; cmdurl := NSURL.URLWithString(aUrl); cmdurl ...
js添加对象数组
json 数组也是数组 var jsonstr="[{'name':'a','value':1},{'name':'b','value':2}]"; var jsonarray ...
06002001单例模式C#实现版本
书名:设计模式之禅作者:秦小波出版社:机械工业出版社 1 描述确保某一个类只有一个实例,而且自行实例化并向整个系统提供这个实例 2 UML类图图1-1 单例模式类图 3 代码 Singleto ...
python操作符重载
操作符重载的魔术方法操作符方法取反即席 + __add__ __radd__ __iadd__ - __sub__ __rsub__ __isub__ * __mul__ __rmul__ _ ...
Linux实战教学笔记41：企业级SVN版本管理与大型代码上线方案
第1章 SVN服务实战应用指南 1.1 SVN介绍 1.1.1 什么是SVN(Subversion)? Svn(subversion)是近年来崛起的非常优秀的版本管理工具,与CVS管理工具一样,SVN ...
GetHashCode()
[GetHashCode] GetHashCode 方法的默认实现不保证针对不同的对象返回唯一值.而且,.NET Framework 不保证 GetHashCode 方法的默认实现以及它所返回的值在不 ...

[GO]百度贴吧的爬虫

[GO]百度贴吧的爬虫的更多相关文章

随机推荐

热门专题