[GO]百度贴吧的爬虫

package main

import (

    "fmt"

    "strconv"

    "net/http"

    "os"

    "io"

)

//百度贴吧的地址规律

//第一页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8(&pn=0)

//第二页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=50

//第三页:https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=100

//所以它的最后的数字每加50,代表着下一页

//整体提取的思路：

//1、先拿地址

//2、爬

//3、取

//4、存

func HttpGet(url string) (result string, err error) {

    resp, err1 := http.Get(url)

    if err != nil {

        err = err1

        return

    }

    defer resp.Body.Close()

    //读取网页的body内容

    buf := make([]byte, *)

    for true {

        n, err := resp.Body.Read(buf)

        if err != nil {

            if err == io.EOF{

                fmt.Println("文件读取完毕")

                break

            }else {

                fmt.Println("resp.Body.Read err = ", err)

                break

            }

        }

        result += string(buf[:n])

    }

    return

}

func DoWork(start, end int)  {

    fmt.Printf("正在爬取第%d页到%d页\n", start, end)

    for i:=start; i<=end; i++ {

        url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-)*)

        //爬,将所有的网页内容爬取下来

        result, err := HttpGet(url)

        if err != nil {

            fmt.Println("http.Get err = ", err)

            continue

        }

        //把内容写入到文件

        filename := strconv.Itoa((i-)*) + ".html"

        f, err1 := os.Create(filename)

        if err1 != nil{

            fmt.Println("os.Create err = ", err1)

            continue

        }

        //写内容

        f.WriteString(result)

        //关闭文件

        f.Close()

    }

}

func main() {

    var start, end int

    fmt.Printf("请输入起始页>=1：> ")

    fmt.Scan(&start)

    fmt.Printf("请输入结束页：> ")

    fmt.Scan(&end)

    DoWork(start, end)

}

[GO]百度贴吧的爬虫的更多相关文章

百度知道的php爬虫
原文地址:百度知道的php爬虫作者:好宏杰软件 <?php class spider { private $content ; private $contentlen ; p ...
“希希敬敬对”团队--‘百度贴吧小爬虫’Alpha版本展示博客
希希敬敬对的 Alpha阶段测试报告随笔链接地址 https://www.cnblogs.com/xiaoyoushang/p/10078826.html Alpha版本发布说明随笔链接地址 ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
百度贴吧的网络爬虫（v0.4）源码及解析
更新:感谢评论中朋友的提醒,百度贴吧现在已经改成utf-8编码了吧,需要把代码中的decode('gbk')改成decode('utf-8'). 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都 ...
百度翻译爬虫-Web版(自动生成sign)
# 面向对象 # 百度翻译 -- 网页版(自动获取token,sign) import requests import js2py import json import re class WebFan ...
[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8934726 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键 ...
Python爬虫教程-05-python爬虫实现百度翻译
使用python爬虫实现百度翻译功能 python爬虫实现百度翻译: python解释器[模拟浏览器],发送[post请求],传入待[翻译的内容]作为参数,获取[百度翻译的结果] 通过开发者工具,获取 ...
Python爬虫教程-实现百度翻译
使用python爬虫实现百度翻译功能python爬虫实现百度翻译: python解释器[模拟浏览器],发送[post请求],传入待[翻译的内容]作为参数,获取[百度翻译的结果] 通过开发者工具,获取发 ...
SuperSpider——打造功能强大的爬虫利器
SuperSpider——打造功能强大的爬虫利器 1.爬虫的介绍图1-1 爬虫(spider) 网络爬虫(web spider)是一个自动的通过网络抓取互联网上的网页的程序,在当今互联网中 ...

随机推荐

Sql--------服务器的数据库表数据插入到本地数据库
本地语句:::insert into 表名(列名) SELECT * FROM OPENDATASOURCE('SQLOLEDB', 'Data Source=127.0.0.1;User ID=sa ...
MapReduce启动的Map/Reduce子任务简要分析
对于Hadoop来说,是通过在DataNode中启动Map/Reduce java进程的方式来实现分布式计算处理的,那么就从源码层简要分析一下hadoop中启动Map/Reduce任务的过程. ...
python学习 (二十九) range函数
1:list函数可以将其他类型转成list. print(list(range(0, 10))) 2: list函数把元组转成list t = (1, 3, 3, 5) print(list(t)) ...
python学习（二十七）元组
# 元组是不可变的,不能改变元素的值,也不能增加.减少元素my_tuple = (1, 2, 3, 3)print(my_tuple) # 查找元素位置print(my_tuple.index(2)) ...
org.hibernate.Session常用方法的作用总结
clear(): 清理session缓存.把所有加载出来的持久化实例都从session缓存中清除,同时,也会挂掉当前session中正在排队的save,update,delete操作. evict: ...
【BZOJ】1823: [JSOI2010]满汉全席（2-sat）
题目传送门:QWQ 分析 2-sat模板(然而辣鸡如我还是调了好久) 代码 //bzoj 1823 2-sat #include <bits/stdc++.h> using namesp ...
论XGBOOST科学调参
XGBOOST的威力不用赘述,反正我是离不开它了. 具体XGBOOST的原理可以参见之前的文章<比XGBOOST更快--LightGBM介绍> 今天说下如何调参. bias-varianc ...
leetcode189
public class Solution { public void reverse(int[] nums, int start, int end) { while (start < end) ...
delphi 浮点精度
double 没有问题, Single有问题 '0.7' 0.69999999999999996 Single; // 4 byte real Double; // 8 byte real
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 13—Clustering 聚类
Lecture 13 聚类 Clustering 13.1 无监督学习简介 Unsupervised Learning Introduction 现在开始学习第一个无监督学习算法:聚类.我们的数据没 ...

[GO]百度贴吧的爬虫

[GO]百度贴吧的爬虫的更多相关文章

随机推荐

热门专题