go语言,爬取百度贴吧指定贴所有内容
初级爬虫,为了学习一下常用的goquery。
goquery 配置
go get https://github.com/PuerkitoBio/goquery
会提示不支持https方式
解决方案:
mkdir -p $GOPATH/src/golang.org/x
cd $GOPATH/src/golang.org/x
git clone https://github.com/golang/net.git
获取net 包后,应该就可以使用了
或者通过clone获取goquery
git clone git@github.com:PuerkitoBio/goquery.git
我的goquery在$GOPATH/src/github.com/PuerkitoBio/goquery
使用的时候直接
import "github.com/PuerkitoBio/goquery"
goquery 使用
据说和jQuery类似。
待补吧。算是督促下进度。
1.解析操作的学习 (完成)
2.如果遍历dom树如何避开陷阱 (完成) 规划路线
3.分离 贴子中楼层,楼中楼。贴子有唯一ID 已经体现在url中。 楼和楼中楼应该也有唯一ID。
4.回复中有图片的情况,下载or跳过。
5.作为解析器,如何融入项目
func GetUrlDocAndRetNxtUrl(){
file := "urltxt"
fout,err := os.Create(file)
defer fout.Close()
if err!=nil{
fmt.Println(file,err)
return
}
doc,err := goquery.NewDocument("https://tieba.baidu.com/p/5976430861")
//创建了html的dom对象。
if err!=nil{
log.Fatal(err)
}
//通过find a标签中的下一页 。
//或者直接构造 oldurl?pn=pagenum 即可 。
return nxturl;
}
还没有测试。。
测试好的代码如下,网页格式在注释。
开始时候忘记了CSS class 空格分隔时 表示有多个class属性,误以为是一种带有空格的class属性,浪费了很多时间。
未区分错误和到达尾页情况 待补。
不应该每次通过url创建对象,多一次访问,性能浪费。应该设置传入对象。待补。
也可以通过网页的返回文档构造对象,然后再去进行解析操作。
response, err := http.Get(url)
//使用goquery解析response响应体获得html文档
doc err := goquery.NewDocumentFromReader(response.Body)
package parse
import (
"fmt"
"github.com/PuerkitoBio/goquery"
"os"
"log"
// "strings"
)
func GetUrlDocAndRetNxtUrl(url string) string{
if url == ""{
url = "https://tieba.baidu.com/p/5976430861"
}
file := "urltxt"
fout,err := os.Create(file)
defer fout.Close()
if err!=nil{
fmt.Println(file,err)
return ""
}
doc,err := goquery.NewDocument(url)
//创建了html的dom对象。
if err!=nil{
log.Fatal(err)
return ""
}
fmt.Println("html-text-page_list:\n")
//fmt.Println(doc.Html())
/*
<li class="l_pager pager_theme_4 pb_list_pager">
<span class="tP">1</span>
<a href="/p/5976430861?pn=2">2</a>
<a href="/p/5976430861?pn=3">3</a>
<a href="/p/5976430861?pn=4">4</a>
<a href="/p/5976430861?pn=5">5</a>
<a href="/p/5976430861?pn=6">6</a>
<a href="/p/5976430861?pn=7">7</a>
<a href="/p/5976430861?pn=8">8</a>
<a href="/p/5976430861?pn=9">9</a>
<a href="/p/5976430861?pn=10">10</a>
<a href="/p/5976430861?pn=2">下一页</a>
<a href="/p/5976430861?pn=15">尾页</a>
</li>
*/
fmt.Println(doc.Find(".pb_list_pager").Html())
tmp := doc.Find(".pb_list_pager").Find("a").Eq(-2)//Last().Prev();
//fmt.Println(tmp.Html())
//fmt.Println(tmp.Attr("href"))
if tmp.Text() == "下一页"{
nxturl,err := tmp.Attr("href")//如果找不到 属性 1.尾页,2.页面本身有问题 现在只处理尾页问题
if err!=true{
return ""
}
nxturl = "tieba.baidu.com"+nxturl;
fmt.Println(nxturl) //write file //此处分离楼中楼 和 楼层内容
}
return ""
//通过find a标签中的下一页 。 或者直接构造 ?pn=pagenum 即可 。
}
go语言,爬取百度贴吧指定贴所有内容的更多相关文章
- 爬取百度贴吧前1000页内容(requests库面向对象思想实现)
此程序以李毅吧为例子,以面向对象的设计思想实现爬取保存网页数据,暂时并未用到并发处理,以后有机会的话会加以改善 首先去百度贴吧分析贴吧地址栏中url后的参数,找到分页对应的参数pn,贴吧名字对应的参数 ...
- Python爬虫实例(一)爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取 例如我们进入秦时明月吧,提取并分析其有效url如下 http:// ...
- Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
- 【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接 问题描述 通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
- 转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
- java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业 说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到 也不想去研究大家有好办法可以call me) 例如 互 ...
- Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的任意帖子进行抓取 指定是否只抓取楼主发帖 ...
- python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到,但是无法点击问题 && pycharm多行缩进、左移
先说一下可能用到的一些python知识 一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...
- 百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
随机推荐
- 洛谷P1053 篝火晚会
P1053 篝火晚会 题目描述 佳佳刚进高中,在军训的时候,由于佳佳吃苦耐劳,很快得到了教官的赏识,成为了“小教官”.在军训结束的那天晚上,佳佳被命令组织同学们进行篝火晚会.一共有n个同学,编号从1到 ...
- 使用idrac远程管理卡操作安装Centos
浏览器打开远程管理网卡地址(浏览器建议用IE,本次用的IE11,其他浏览器可能不能用) 1.首先设置虚拟控制台插件类型(推荐该为本地) 点击启动后,可能会弹窗,选择允许 2.添加镜像 创建虚拟介质 连 ...
- noi省选 [九省联考2018]一双木棋题解(状压dp)
比浙江简单多了........ 题目转送:https://www.luogu.org/problemnew/show/P4363 分析: 我们注意到n和m都很小,考虑一下状压dp. 显然,棋子摆成的形 ...
- java程序调用.net接口服务地址的写法
参考文章:http://download.csdn.net/detail/davidiao/7424767 http://www.cnblogs.com/mq0036/p/3554002.html . ...
- BZOJ 1924 && Luogu P2403 [SDOI2010]所驼门王的宝藏 恶心建图+缩点DP
记住:map一定要这么用: if(mp[x[i]+dx[j]].find(y[i]+dy[j])!=mp[x[i]+dx[j]].end()) add(i,mp[x[i]+dx[j]][y[i]+dy ...
- Python Unittest - 根据不同测试环境跳过用例详解
本文章会讲述以下几个内容: 1.Unittest 如何跳过用例 2.如何使用sys.argv 3.自动化测试项目中如何一套代码多套环境运行 一.Unittest跳过用例 @unittest.skip( ...
- ProtobufUtils
import java.io.IOException; import java.io.InputStream; import java.lang.reflect.Method; import com. ...
- 带图片的word快速插入到博客中
最近在博客中写文章的时候,最烦的就是将word文档整体传到博客中,不能一次把图片粘贴上去,再次去添加图片的时候要截图还要找对位置才可上传,偶尔的机会在网上看到有人这么处理,挺好用的,这里我也做个备注. ...
- 02------css选择器
css的选择器:1.基本选择器 2.高级选择器 基本选择器包含: 1.标签选择器标签选择器可以选中所有的标签元素,比如div,ul,li ,p等等,不管标签藏的多深,都能选中,选中的是所有的,而不是某 ...
- sleuth使用说明(入门)
出发点: 微服务架构上通过业务来划分服务的,通过REST调用,对外暴露的一个接口,可能需要很多个服务协同才能完成这个接口功能,如果链路上任何一个服务出现问题或者网络超时,都会形成导致接口调用失败.随着 ...