Python爬取百度贴吧数据

　　本渣除了工作外，在生活上还是有些爱好，有些东西，一旦染上，就无法自拔，无法上岸，从此走上一条不归路。花鸟鱼虫便是我坚持了数十年的爱好。

　　本渣还是需要上班，才能支持我的业余爱好。上班时间还是尽量访问外网，少做一些和工作不太相关的事。有段时间，像是中毒一样，经常想关注百度贴吧中牡丹鹦鹉，及玄凤鹦鹉的交易图。

　　于是就写出一下代码：

import requests

from lxml import etree

url = r"http://tieba.baidu.com/p/5197963751"

url = r"http://tieba.baidu.com/p/5195568368"

# url = r"http://tieba.baidu.com/p/5004763771"

keyword = "广州"

s = requests.session()

def findgz(pageindex):

    r = s.get("{1}?pn={0}".format(pageindex, url))

    # print(r.text.encode("utf-8"))

    htmlpage = etree.HTML(r.text)

    divlist = htmlpage.xpath(

        "//div[@class='d_post_content j_d_post_content  clearfix']")

    print("第{0}页".format(pageindex))

    for x in divlist:

        for y in x.xpath('text()'):

            if keyword in y:

                for z in x.xpath('text()'):

                    print(z.replace(' ', ''))

                else:

                    print('\n')

r = s.get(url)

tmphtml = etree.HTML(r.text)

maxpageindex = tmphtml.xpath("//a[text()='尾页']")[0].get("href").split("=")[-1]

print("总共{0}页".format(maxpageindex))

[findgz(x) for x in range(1, int(maxpageindex) + 1)]

　　输出如下：

总共8页

第1页

1.百度昵称：aiiye1234

2.交易物品：白脸黄脸

3.物品价格：400-1000

4.联系方式：扣扣822616382

5.地理位置：广州

6.其它备注：开始学吃了

7.物品图片：

Python爬取百度贴吧数据的更多相关文章

利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
python爬取百度贴吧帖子
最近偶尔学下爬虫,放上第二个demo吧 #-*- coding: utf-8 -*- import urllib import urllib2 import re #处理页面标签类 class Too ...
爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...
假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10
今天主要完成了根据爬取的txt文档,从百度分类从信息科学类爬取百度词条信息,并写入CSV格式文件. txt格式文件如图: 为自己爬取内容分词后的结果. 代码如下: import requests fr ...

随机推荐

Android Studio 工具栏添加常用按钮
本文中 Android Studio 的版本为 android Studio 2.2 ,操作系统为 Windows,如有操作不同,可能是版本差异.在工具栏中添加一些常用的按钮,如设置.DDMS,有利于 ...
cpp(第十一章)
1. std::istream & operator>>(std::istream &is,complex_c &t) { std::cout<<&qu ...
influxdb + Grafana可视化监控平台
在centos6.5上influxdb + Grafana监控平台配置: 1.RedHat and CentOS users can install the latest stable version ...
解决kubuntu(KDE4.8.5桌面环境)找不到中文语言包
原始日期:2013-12-30 23:16 接触linux的想必都知道KDE平台,kde精美的界面是其一大特色,不过美中不足的是,很多新手在安装完KDE后,界面包括菜单选项等都是英文界面,对于英语水平 ...
Linux 最新SO_REUSEPORT特性
1.前言昨天总结了一下Linux下网络编程“惊群”现象,给出Nginx处理惊群的方法,使用互斥锁.为例发挥多核的优势,目前常见的网络编程模型就是多进程或多线程,根据accpet的位置,分为如下场景: ...
linux 权限字母含义
查看某一文件夹下所有文件夹的权限情况:ls -l分别是:所有者(user)-所有者(user)-其他人(other)r 表示文件可以被读(read)w 表示文件可以被写(write)x 表示文件可以被 ...
win7休眠的开启与关闭方法
从开始菜单中找到“附件→命令提示符”,右击选择“以管理员身份运行”,此时可能需要输入管理员密码或进行UAC确认,手工输入如下命令:powercfg -a,从这里可以清楚的看到,计算机是支持休眠的,只是 ...
【Android Developers Training】 65. 应用投影和相机视图
注:本文翻译自Google官方的Android Developers Training文档,译者技术一般,由于喜爱安卓而产生了翻译的念头,纯属个人兴趣爱好. 原文链接:http://developer ...
VMware Mac OS中无法找到适应的分辨率的解决办法
使用VMware安装的Mac OS中,有时在显示器的分辨率中的选择项里面,没有对应显示的分辨率可供选择的时候(无法自适应),可以在虚拟机设置里,显示器中修改强制分辨率.修改过后重启虚拟机,就可以有对应 ...
浏览器json格式化插件 yformater
本人最近做的工作就是写interface,几个前端写前端,他们需要什么样的数据格式,我就得返回这样的数据格式.这就导致每一个接口都得检查json格式是否是他们所需要的.但浏览器直接请求的json格式很 ...

Python爬取百度贴吧数据

Python爬取百度贴吧数据的更多相关文章

随机推荐

热门专题