百度贴吧纵向爬取

上一个是横向爬取的，这个纵向爬取，具体怎么做的看代码

package main

import (

	"fmt"

	"io"

	"net/http"

	"os"

	"regexp"

	"strconv"

)

func HttpGetDB(url string) (result string, err error) {

	resp, err1 := http.Get(url)

	if err1 != nil {

		err = err1

		return

	}

	defer resp.Body.Close()

	buf := make([]byte, 4096)

	for {

		n, err2 := resp.Body.Read(buf)

		if n == 0 {

			break

		}

		if err2 != nil && err2 != io.EOF {

			err = err2

			return

		}

		result += string(buf[:n])

	}

	return

}

func Save2file(idx int, fileName [][]string) {

	path := "第" + strconv.Itoa(idx) + "页" + ".txt"

	f, err := os.Create(path)

	if err != nil {

		fmt.Println("os.Create err", err)

		return

	}

	defer f.Close()

	n := len(fileName)

	f.WriteString("名称\n")

	for i := 0; i < n; i++ {

		f.WriteString(fileName[i][1] + "\n")

	}

}

func SpiderPageDB(idx int, page chan int) {

	//	url := "https://movie.douban.com/review/best/?start=" + strconv.Itoa((idx-1)*20)

	//	url := "https://movie.douban.com/annual/2018?source=navigation#" + strconv.Itoa(idx-1)

	//	https://movie.douban.com/review/best/?start=20

	url := "https://tieba.baidu.com/f?kw=vue&ie=utf-8&pn=" + strconv.Itoa((idx-1)*50)

	result, err := HttpGetDB(url)

	if err != nil {

		fmt.Println("HttpGet2 err", err)

		return

	}

	//	fmt.Println("result=", result)

	ret := regexp.MustCompile(`<span class="tb_icon_author_rely j_replyer" title="最后回复人:(?s:(.*?))"`)

	fileName := ret.FindAllStringSubmatch(result, -1)

	//	for _, name := range fileName {

	//		fmt.Println("name", name[1])

	//	}

	Save2file(idx, fileName)

	page <- idx

}

func toWork(start, end int) {

	fmt.Printf("正在爬取%d到%d页。。。\n", start, end)

	page := make(chan int)

	for i := start; i <= end; i++ {

		go SpiderPageDB(i, page)

	}

	for i := start; i <= end; i++ {

		fmt.Print("第%d页爬取完成\n", <-page)

	}

}

func main() {

	var start, end int

	fmt.Print("请输入起始页(>=1):")

	fmt.Scan(&start)

	fmt.Print("请输入终止页（>=start）:")

	fmt.Scan(&end)

	toWork(start, end)

}

go-百度贴吧-纵向爬取的更多相关文章

百度地图POI数据爬取，突破百度地图API爬取数目“400条“的限制11。
1.POI爬取方法说明 1.1AK申请登录百度账号,在百度地图开发者平台的API控制台申请一个服务端的ak,主要用到的是Place API.检校方式可设置成IP白名单,IP直接设置成了0.0.0.0 ...
利用python爬取海量疾病名称百度搜索词条目数的爬虫实现
实验原因: 目前有一个医疗百科检索项目,该项目中对关键词进行检索后,返回的结果很多,可惜结果的排序很不好,影响用户体验.简单来说,搜索出来的所有符合疾病中,有可能是最不常见的疾病是排在第一个的,而最有 ...
Java爬取百度图片Google图片Bing图片
先看看抓取的结果. 8个Java类: Startup.java - main函数 ImageCrawler.java - Crawler基类 BaiduImageCrawler.java - 百度图片 ...
Scrapy Learning笔记（四）- Scrapy双向爬取
摘要:介绍了使用Scrapy进行双向爬取(对付分类信息网站)的方法. 所谓的双向爬取是指以下这种情况,我要对某个生活分类信息的网站进行数据爬取,譬如要爬取租房信息栏目,我在该栏目的索引页看到如下页面, ...
Python 爬取热词并进行分类数据分析-[简单准备] （2020年寒假小目标05）
日期:2020.01.27 博客期:135 星期一 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备](本期博客) b.[云图制作+数据导入] ...
python 爬取全量百度POI
在网上找了很多关于爬取百度POI的文章,但是对“全量”的做法并没有得到最终的解决方案,自己写了一个,但还是不能实现全量POI抓取,能够达到至少50%的信息抓取.注意:这里所指“全量”是能够达到100% ...
python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
Python爬虫爬取百度贴吧的图片
根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2i ...
Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urlli ...

随机推荐

为什么 JavaScript 中 0.1+0.2 不等于 0.3 ？
本文首发于 vivo互联网技术微信公众号链接:https://mp.weixin.qq.com/s/2kea7-jACCJmSYBQAwXyIg作者:刘洋在 js 中进行数学的运算时,会出现0. ...
docker安装mysql、es、jenkins等一些步骤以及如何设置docker国内镜像
CentOS7安装Docker步骤: (0)删除旧的可能安装过的包 yum remove docker \ docker-client \ ...
flutter 打包apk
打包的具体操作,可以参照官网,只是官网没有那么细 1.修改AndroidManifest.xml 2.构建配置可以跳过 3.构建签名 4.创建 key.properties 5.配置混淆 6.修改 ...
Vue组件通信的几种方法
上一节说到,vue.js是允许子组件通过props接受父组件的信息,但是不允许父组件通过props接受子组件的信息 1. $emit()和on 当子组件需要向父组件传递数据时,就要用到自定义事件. 使 ...
sync.Map与Concurrent Map
1. sync.Map 1.1. map并发不安全 go1.6以后map有了并发的安全检查,所以如果在并发环境中读写map就会报错 func unsafeMap() { // 创建一个map对象 m ...
android studio节省C盘空间的配置方法
近期发现C盘空闲空间剩余不多了,经过检查发现在C:\Users\<电脑用户名>\的目录下,有这两个文件夹空间比较大,这两文件夹分别是 .AndroidStudioPreview3.2(不同 ...
Word List
周一考试了,单单单词查不完了,只好随便整理一下了
通过Shell脚本来创建批量服务器上的MySQL数据库账号
1.项目背景因监控需要,我们需要在既有的每个MySQL实例上创建一个账号.公司有数百台 MySQL 实例,如果手动登入来创建账号很麻烦,也不现实.所以,我们写了一个简单的shell脚本,用来创建批量 ...
小程序组件化开发框架---wepy 项目创建
wepy是一个优秀的微信小程序组件化框架,突破了小程序的限制,支持了npm包加载以及组件化方案.这里就以我个人的经历讲下怎么创建wepy项目. 1.首先在桌面(自己选定目录下)新建一个文件夹,注意需 ...
Scrapy安装和简单使用
模块安装 Windows 安装scrapy 需要安装依赖环境twisted,twisted又需要安装C++的依赖环境 pip install scrapy 时如果出现twisted错误在http ...

go-百度贴吧-纵向爬取

百度贴吧纵向爬取

go-百度贴吧-纵向爬取的更多相关文章

随机推荐

热门专题