python爬虫实战（2）--爬取百度贴吧

本篇目标

1.对百度贴吧的任意帖子进行抓取

2.指定是否只抓取楼主发帖内容

3.将抓取到的内容分析并保存到文件

1.URL格式的确定

先观察百度贴吧url格式，以中南财经政法大学迎新帖为例，URL我们划分基础部分是 http://tieba.baidu.com/p/5174106966，参数部分是 ?see_lz=1&pn=1

2.页面的抓取

一个初始化方法，一个获取页面的方法。另外，获取页面的方法我们需要知道一个参数就是帖子页码，所以这个参数的指定我们放在该方法中。

class Baidu_Spider:

    # 申明相关的属性

    def __init__(self, url):

        self.myUrl = url + '?see_lz=1'

        self.datas = []

        self.myTool = HTML_Tool()

        self.floor = 1

        print u'已经启动百度贴吧爬虫'

        # 初始化加载页面并将其转码储存

    def baidu_tieba(self):

        # 读取页面的原始信息并将其从utf-8转码

        myPage = urllib2.urlopen(self.myUrl).read().decode('utf-8')

        # 计算楼主发布内容一共有多少页

        endPage = self.page_counter(myPage)

        # 获取该帖的标题

        title = self.find_title(myPage)

        print u'文章名称：' + title

        # 获取最终的数据

        self.save_data(self.myUrl, title, endPage)

# 以中南财经政法大学迎新帖为例子

# bdurl = 'http://tieba.baidu.com/p/5174106966?see_lz=1&pn=1'

print u'请输入贴吧的地址最后的数字串：'

bdurl = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/'))

初始代码

3.提取相关信息

1）提取帖子页数

        # 用来计算一共有多少页

    def page_counter(self, myPage):

        # 匹配 "共有<span class="red">12</span>页" 来获取一共有多少页

        myMatch = re.search(r'class="red">(\d+?)</span>', myPage, re.S)

        if myMatch:

            endPage = int(myMatch.group(1))

            print u'爬虫报告：发现楼主共有%d页的原创内容' % endPage

        else:

            endPage = 0

            print u'爬虫报告：无法计算楼主发布内容有多少页！'

        return endPage

提取页数

2）提取帖子标题

        # 用来寻找该帖的标题

    def find_title(self, myPage):

        # 匹配 <h1 class="core_title_txt" title="">xxxxxxxxxx</h1> 找出标题

        myMatch = re.search(r'<h1.*?>(.*?)</h1>', myPage, re.S)

        title = u'暂无标题'

        if myMatch:

            title = myMatch.group(1)

        else:

            print u'爬虫报告：无法加载文章标题！'

            # 文件名不能包含以下字符： \ / ： * ? " < > |

        title = title.replace('\\', '').replace('/', '').replace(':', '').replace('*', '').replace('?', '').replace('"',

                                                                                                                    '').replace(

            '>', '').replace('<', '').replace('|', '')

        return title

提取标题

3）获取信息并保存

        # 用来存储楼主发布的内容

    def save_data(self, url, title, endPage):

        # 加载页面数据到数组中

        self.get_data(url, endPage)

        # 打开本地文件

        f = open(title + '.txt', 'w+')

        f.writelines(self.datas)

        f.close()

        print u'爬虫报告：文件已下载到本地并打包成txt文件'

        print u'请按任意键退出...'

        raw_input();

        # 获取页面源码并将其存储到数组中

    def get_data(self, url, endPage):

        url = url + '&pn='

        for i in range(1, endPage + 1):

            print u'爬虫报告：爬虫%d号正在加载中...' % i

            myPage = urllib2.urlopen(url + str(i)).read().decode('utf-8')

            # 将myPage中的html代码处理并存储到datas里面

            self.deal_data(myPage)

            # 将内容从页面代码中抠出来

    def deal_data(self, myPage):

        myItems = re.findall('id="post_content.*?>(.*?)</div>', myPage, re.S)

        for item in myItems:

            data = self.myTool.Replace_Char(item.encode('gbk'))

            myFloor = (str(self.floor) + "楼--------------------------------------").decode('utf-8').encode('gbk')

            self.datas.append(myFloor + '\n\n' + data + '\n\n')

            self.floor += 1

提取信息

4.完善代码

# -*- coding: utf-8 -*-

# ---------------------------------------

#   程序：百度贴吧爬虫

#   作者：lzhc

#   日期：2017-12-11

#   语言：Python 2.7

#   操作：输入网址后自动只看楼主并保存到本地文件

#   功能：将楼主发布的内容打包txt存储到本地。

# ---------------------------------------

import string

import urllib2

import re

# ----------- 处理页面上的各种标签 -----------

class HTML_Tool:

    # 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片

    BgnCharToNoneRex = re.compile("(\t|\n| |<a.*?>|<img.*?>)")

    # 用非 贪婪模式 匹配 任意<>标签

    EndCharToNoneRex = re.compile("<.*?>")

    # 用非 贪婪模式 匹配 任意<p>标签

    BgnPartRex = re.compile("<p.*?>")

    CharToNewLineRex = re.compile("(<br>|</p>|<tr>|<div>|</div>)")

    CharToNextTabRex = re.compile("<td>")

    def Replace_Char(self, x):

        x = self.BgnCharToNoneRex.sub("", x)

        x = self.BgnPartRex.sub("\n    ", x)

        x = self.CharToNewLineRex.sub("\n", x)

        x = self.CharToNextTabRex.sub("\t", x)

        x = self.EndCharToNoneRex.sub("", x)

        return x

class Baidu_Spider:

    # 申明相关的属性

    def __init__(self, url):

        self.myUrl = url + '?see_lz=1'

        self.datas = []

        self.myTool = HTML_Tool()

        self.floor = 1

        print u'已经启动百度贴吧爬虫'

        # 初始化加载页面并将其转码储存

    def baidu_tieba(self):

        # 读取页面的原始信息并将其从utf-8转码

        myPage = urllib2.urlopen(self.myUrl).read().decode('utf-8')

        # 计算楼主发布内容一共有多少页

        endPage = self.page_counter(myPage)

        # 获取该帖的标题

        title = self.find_title(myPage)

        print u'文章名称：' + title

        # 获取最终的数据

        self.save_data(self.myUrl, title, endPage)

        # 用来计算一共有多少页

    def page_counter(self, myPage):

        # 匹配 "共有<span class="red">12</span>页" 来获取一共有多少页

        myMatch = re.search(r'class="red">(\d+?)</span>', myPage, re.S)

        if myMatch:

            endPage = int(myMatch.group(1))

            print u'爬虫报告：发现楼主共有%d页的原创内容' % endPage

        else:

            endPage = 0

            print u'爬虫报告：无法计算楼主发布内容有多少页！'

        return endPage

        # 用来寻找该帖的标题

    def find_title(self, myPage):

        # 匹配 <h1 class="core_title_txt" title="">xxxxxxxxxx</h1> 找出标题

        myMatch = re.search(r'<h1.*?>(.*?)</h1>', myPage, re.S)

        title = u'暂无标题'

        if myMatch:

            title = myMatch.group(1)

        else:

            print u'爬虫报告：无法加载文章标题！'

            # 文件名不能包含以下字符： \ / ： * ? " < > |

        title = title.replace('\\', '').replace('/', '').replace(':', '').replace('*', '').replace('?', '').replace('"',

                                                                                                                    '').replace(

            '>', '').replace('<', '').replace('|', '')

        return title

        # 用来存储楼主发布的内容

    def save_data(self, url, title, endPage):

        # 加载页面数据到数组中

        self.get_data(url, endPage)

        # 打开本地文件

        f = open(title + '.txt', 'w+')

        f.writelines(self.datas)

        f.close()

        print u'爬虫报告：文件已下载到本地并打包成txt文件'

        print u'请按任意键退出...'

        raw_input();

        # 获取页面源码并将其存储到数组中

    def get_data(self, url, endPage):

        url = url + '&pn='

        for i in range(1, endPage + 1):

            print u'爬虫报告：爬虫%d号正在加载中...' % i

            myPage = urllib2.urlopen(url + str(i)).read().decode('utf-8')

            # 将myPage中的html代码处理并存储到datas里面

            self.deal_data(myPage)

            # 将内容从页面代码中抠出来

    def deal_data(self, myPage):

        myItems = re.findall('id="post_content.*?>(.*?)</div>', myPage, re.S)

        for item in myItems:

            data = self.myTool.Replace_Char(item.encode('gbk'))

            myFloor = (str(self.floor) + "楼--------------------------------------").decode('utf-8').encode('gbk')

            self.datas.append(myFloor + '\n\n' + data + '\n\n')

            self.floor += 1

            # -------- 程序入口处 ------------------

print u"""#---------------------------------------

#   程序：百度贴吧爬虫

#   作者：lzhc

#   日期：2017-12-11

#   语言：Python 2.7

#   操作：输入网址后自动只看楼主并保存到本地文件

#   功能：将楼主发布的内容打包txt存储到本地。

#---------------------------------------

"""

# 以中南财经政法大学迎新帖为例子

# bdurl = 'http://tieba.baidu.com/p/5174106966?see_lz=1&pn=1'

print u'请输入贴吧的地址最后的数字串：'

bdurl = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/'))

# 调用

mySpider = Baidu_Spider(bdurl)

mySpider.baidu_tieba()

运行结果：

记入记事本中的内容：

python爬虫实战（2）--爬取百度贴吧的更多相关文章

Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子
本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子. 比如:http:// ...
Python爬虫实战：爬取腾讯视频的评论
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...
python 爬虫实战4 爬取淘宝MM照片
本篇目标抓取淘宝MM的姓名,头像,年龄抓取每一个MM的资料简介以及写真图片把每一个MM的写真图片按照文件夹保存到本地熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是 http:/ ...

随机推荐

C++（十四） — 常用快捷键总结
快捷键设置方法:https://blog.csdn.net/wrzfeijianshen/article/details/53230789 https://blog.csdn.net/wrzfei ...
TCP/IP详解学习笔记(4)-ICMP协议，ping和Traceroute【转】
转自:http://blog.csdn.net/goodboy1881/article/details/670761 1.IMCP协议介绍前面讲到了,IP协议并不是一个可靠的协议(是一种尽力传送的协 ...
HANA IMPORT AND EXPORT
权限管控的过于严格,所以找机会写个导入导出的流程.从测试机传输到生产机 1 选中EXPORT , 导出将要传输的模型也可以在QUICK VIEW 里选中导入导出.个人爱好 2 选择传输的两种模式 ...
Java tutorial 02
一.EnumTest.java枚举类型 public class EnumTest { public static void main(String[] args) { Size s=Size.SMA ...
redis_学习_02_redis 可视化工具 Redis Desktop Manager
二.参考资料 1.Redis可视化工具Redis Desktop Manager使用 2.超好用的Redis管理及监控工具,使用后可大大提高你的工作效率!
model1 就是jsp+javabean
middle school
One of the most difficult transitions faced by parents and youth is that of going from elementary to ...
python2和python3 print输出不换行
python2 print不换行在print最后加上一个逗号,会把两个输出打印在同一行,不过两个输出之间有一个空格的间隔,例如:print '{0}'.format(123),print '{0}' ...
Linux命令学习（18）：route命令
版权声明更新:2017-05-20博主:LuckyAlan联系:liuwenvip163@163.com声明:吃水不忘挖井人,转载请注明出处! 1 文章介绍本文介绍了Linux下面的route命令. ...
【LeetCode】029. Divide Two Integers
Divide two integers without using multiplication, division and mod operator. If it is overflow, retu ...