go语言，爬取百度贴吧指定贴所有内容

初级爬虫，为了学习一下常用的goquery。

goquery 配置

go get https://github.com/PuerkitoBio/goquery

会提示不支持https方式

解决方案：

mkdir -p $GOPATH/src/golang.org/x

cd $GOPATH/src/golang.org/x

git clone https://github.com/golang/net.git

获取net 包后，应该就可以使用了

或者通过clone获取goquery

git clone git@github.com:PuerkitoBio/goquery.git

我的goquery在$GOPATH/src/github.com/PuerkitoBio/goquery

使用的时候直接

import "github.com/PuerkitoBio/goquery"

goquery 使用

据说和jQuery类似。

待补吧。算是督促下进度。

1.解析操作的学习（完成）

2.如果遍历dom树如何避开陷阱（完成）规划路线

3.分离贴子中楼层，楼中楼。贴子有唯一ID 已经体现在url中。楼和楼中楼应该也有唯一ID。

4.回复中有图片的情况，下载or跳过。

5.作为解析器，如何融入项目

func GetUrlDocAndRetNxtUrl(){

	file := "urltxt"

	fout,err := os.Create(file)

	defer fout.Close()

	if err!=nil{

		fmt.Println(file,err)

		return

	}

	doc,err := goquery.NewDocument("https://tieba.baidu.com/p/5976430861")

	//创建了html的dom对象。

	if err!=nil{

		log.Fatal(err)

	}

	//通过find a标签中的下一页 。

        //或者直接构造 oldurl?pn=pagenum 即可 。
return nxturl;

}

　还没有测试。。

测试好的代码如下，网页格式在注释。

开始时候忘记了CSS class 空格分隔时表示有多个class属性，误以为是一种带有空格的class属性，浪费了很多时间。

未区分错误和到达尾页情况待补。

不应该每次通过url创建对象，多一次访问，性能浪费。应该设置传入对象。待补。

也可以通过网页的返回文档构造对象，然后再去进行解析操作。

response, err := http.Get(url)
//使用goquery解析response响应体获得html文档
doc err := goquery.NewDocumentFromReader(response.Body)

package parse

import (

	"fmt"

	"github.com/PuerkitoBio/goquery"

	"os"

	"log"

//	"strings"

)

func GetUrlDocAndRetNxtUrl(url string) string{

	if url == ""{

		url = "https://tieba.baidu.com/p/5976430861"

	}

	file := "urltxt"

	fout,err := os.Create(file)

	defer fout.Close()

	if err!=nil{

		fmt.Println(file,err)

		return ""

	}

	doc,err := goquery.NewDocument(url)

	//创建了html的dom对象。

	if err!=nil{

		log.Fatal(err)

		return ""

	}

	fmt.Println("html-text-page_list:\n")

	//fmt.Println(doc.Html())

	/*

		<li class="l_pager pager_theme_4 pb_list_pager">

		<span class="tP">1</span>

		<a href="/p/5976430861?pn=2">2</a>

		<a href="/p/5976430861?pn=3">3</a>

		<a href="/p/5976430861?pn=4">4</a>

		<a href="/p/5976430861?pn=5">5</a>

		<a href="/p/5976430861?pn=6">6</a>

		<a href="/p/5976430861?pn=7">7</a>

		<a href="/p/5976430861?pn=8">8</a>

		<a href="/p/5976430861?pn=9">9</a>

		<a href="/p/5976430861?pn=10">10</a>

		<a href="/p/5976430861?pn=2">下一页</a>

		<a href="/p/5976430861?pn=15">尾页</a>

		</li>

	*/

	fmt.Println(doc.Find(".pb_list_pager").Html())

	tmp := doc.Find(".pb_list_pager").Find("a").Eq(-2)//Last().Prev();

	//fmt.Println(tmp.Html())

	//fmt.Println(tmp.Attr("href"))

	if tmp.Text() == "下一页"{

		nxturl,err := tmp.Attr("href")//如果找不到 属性 1.尾页，2.页面本身有问题 现在只处理尾页问题

		if err!=true{

			return ""

		}

		nxturl = "tieba.baidu.com"+nxturl;

		fmt.Println(nxturl)

		//write file 

		//此处分离楼中楼 和 楼层内容

	}

	return ""

	//通过find a标签中的下一页 。 或者直接构造 ?pn=pagenum 即可 。

}

go语言，爬取百度贴吧指定贴所有内容的更多相关文章

爬取百度贴吧前1000页内容（requests库面向对象思想实现）
此程序以李毅吧为例子,以面向对象的设计思想实现爬取保存网页数据,暂时并未用到并发处理,以后有机会的话会加以改善首先去百度贴吧分析贴吧地址栏中url后的参数,找到分页对应的参数pn,贴吧名字对应的参数 ...
Python爬虫实例（一）爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取例如我们进入秦时明月吧,提取并分析其有效url如下 http:// ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接问题描述通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到也不想去研究大家有好办法可以call me) 例如互 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到，但是无法点击问题 && pycharm多行缩进、左移
先说一下可能用到的一些python知识一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

随机推荐

[Design-Pattern]工厂模式
Java版本 1 package interfaces; 2 3 interface Service { 4 void method1(); 5 void method2(); 6 } 7 8 int ...
JAVA包学习笔记
包什么是包为了使类易于查找和使用,为了避免命名冲突和限定类的访问权限,可以将一组相关类与接口"包裹"在一起形成包. 有可能同名类的存在而导致命名冲突,而位于不同包中的类及时同名 ...
HBase HA + Hadoop HA 搭建
HBase 使用的是 1.2.9 的版本. Hadoop HA 的搭建见我的另外一篇:Hadoop 2.7.3 HA 搭建及遇到的一些问题以下目录均为 HBase 解压后的目录. 1. 修改 co ...
hdu 1848 Fibonacci again and again（SG函数）
Fibonacci again and again HDU - 1848 任何一个大学生对菲波那契数列(Fibonacci numbers)应该都不会陌生,它是这样定义的: F(1)=1; F(2)= ...
2017-10-5 清北刷题冲刺班a.m
行列式序列 #include<iostream> #include<cstdio> #define maxn 500010 using namespace std; int ...
SP1716 GSS3
题意翻译 $n$ 个数,$q$ 次操作操作$0$ $x$ $y$把$A_x$ 修改为$y$ 操作$1$ $l$ $r$询问区间$[l, r]$的最大子段和 ...
python基础 3.0 file 读取文件
一.python 文件访问 1.在python中要访问文件,首先要打开文件,也就是open r: 只读 w: 只写 ,文件已存在则清空,不存在则创建 a:追加 ,写到文件末尾.如果文件存在,则在 ...
js千分位处理
一.去掉千分位 function removeThousands(num) { var x = num.split(','); return parseFloat(x.join("" ...
Github网站css加载不出来的处理方法(转，亲测有效)
转载链接:https://blog.csdn.net/qq_36589706/article/details/80573008因为工作需求,自己会经常使用到github,但是突然有一天打开github ...
使用open live writer客户端写博客(亲测有效)
博客都开了这么久了,才开始将资料上传,但是每次都要登录网页确实很麻烦,所以就用open live writer,使用起来真的是挺方便的,所以将我在安装配置时,发现的问题汇总起来以便日后再次碰到忘记怎么 ...

go语言，爬取百度贴吧指定贴所有内容

go语言，爬取百度贴吧指定贴所有内容的更多相关文章

随机推荐

热门专题