Python爬虫初学（二）—— 爬百度贴吧

昨天初步接触了爬虫，实现了爬取网络段子并逐条阅读等功能，详见Python爬虫初学（一）。今天准备对百度贴吧下手了，嘿嘿。依然是跟着这个博客学习的，这次仿照该博主用类的方式写。

其实我从来不玩贴吧，不过据我所知贴吧有一些网友，他们开帖子连载原创小说；还有些网友提供“福利”，造福广大网民。嗯，所以今天的目标是这样的：

把分散的连载小说下载到本地

批量下载贴吧图片

一. 下载小说

1. 定义一个类

这次用类来写。实现这个也不难，经过昨天的学习已经有一定经验了。导入库什么的就不说了。先看贴吧的url构成，如http://tieba.baidu.com/p/4723863270?see_lz=1&pn=2。其中http://tieba.baidu.com/p/4723863270为该帖的基础地址，?see_lz=1是只看楼主标志位，为1是表示“只看楼主”，pn=2代表当前帖子的页码。现在来定义一个爬取百度贴吧的SpiderBaidu，初始化，然后定义一个open_url()来返回网页内容。

class SpiderBaidu:
    # 初始化帖子原地址，默认只看楼主
    def __init__(self, url, see_lz_flag=1):
        self.url = url
        # 可设置看所有楼
        self.see_lz = '?see_lz=' + str(see_lz_flag)
        self.res = []

    # 打开具体网址并返回网页内容
    def open_url(self, num):
        # 该帖具体网址，num指定页码
        wanted_page = self.url + self.see_lz + '&pn=' + str(num)
        req = request.Request(wanted_page)
        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                     '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
        response = request.urlopen(req)
        html = response.read().decode('utf-8')
        return html

2. 获取标题和总页数

我们想要知道帖子标题以及总页数，提取出来就是了！

可以发现标题被<h1 class="core_title_txt(...)</h1>包含起来了，这里要注意的是，有些帖子不是<h1>,可能是<h3>或者其他，一会儿匹配的时候考虑进去。

    # 提取标题
    def get_title(self):
        # 第1页就包含标题，所以num用1即可
        html = self.open_url(1)
        # 提取标题的规则，<h\d>即无论h1还是h3都会匹配成功
        title_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>')
        title = re.findall(title_pattern, html)
        # 返回的是列表且只有一个元素，故用title[0]
        return title[0]

接下来是总页数，仔细观察总页数其实在最上面和最下面都是有一个的，所以一会儿匹配后返回的列表会有两个元素，这两个元素是一模一样的！

如上图，数字7被<span class="red">(需要提取的数字)</span>包含。代码如下。

    # 获取总页数
    def get_page_num(self):
        # 第1页也有总页数
        html = self.open_url(1)
        num_pattern = re.compile(r'<span class="red">(\d+)</span>')
        page_num = re.findall(num_pattern, html)
        # 贴吧的最上和最下面都有总页码，随便返回一个即可
        return page_num[0]

我们来看一下提取出来的标题和页码。

3. 获取正文

正文前面有空格，依然要用\s+匹配。正文被<div id="post_content...class=d_post_content j_d_post_content...空格空格（正文）</div>包含。以下函数提取出正文。

    # 获取正文
    def get_content(self, num):
        # 获取网页全部内容
        html = self.open_url(num)
        # 提取每楼发言
        content_pattern = re.compile(r'<div id="post_content.*?class="d_post_content j_d_post_content'
                                     r'.*?>\s+(.*?)</div>')
        content = re.findall(content_pattern, html)
        return content

即使是提取出帖子正文了，也别高兴的太早。贴吧发帖不可能人人都发的纯文本，可以预想到里面会有图片（包含表情），超链接，还有设置的签名等。这些还没有被过滤掉。（不好意思忘了截图，反正打印出来的内容会含有很多又长又难看的链接）

我们再制定规则过滤掉。

    # 这里参数con为get_content()函数返回的包含正文的列表
    def get_words_only(self, con):
        for i in con:
            # 删除图片
            each = re.sub(r'<img class=".*?>', '', i)
            # 删除签名
            each = re.sub(r'<div class="post_bubble_top".*?>', '', each)
            # 换行
            each = re.sub(r'<br>', '\n', each)
            # 删除超链接
            each = re.sub(r'<a href=.*?</a>', '', each)
            # 添加到初始化的列表中
            self.res.append(each)
        return self.res

4. 下载小说到本地

默认模式为只看楼主，其他人插楼小说还咋读是不。

    # 下载到本地
    def save_text(self):
        # 返回的帖子标题作为文件名
        file_title = self.get_title()
        # 最大页码
        page_num = int(self.get_page_num())
        with open(file_title + '.txt', 'w', encoding='utf-8') as f:
            # 每一页内容都写入文件
            for number in range(1, page_num + 1):
                con = self.get_content(number)
                # 只留下纯文字，过滤图片、超链接等
                result = self.get_words_only(con)
                f.writelines(result)

最后创建一个实例就好了，试试下载吧。

if __name__ == '__main__':
    spider = SpiderBaidu('http://tieba.baidu.com/p/4698209454')
    title = spider.get_title()
    total_num = spider.get_page_num()
    print('{}(共{}页)'.format(title, total_num))
    spider.save_text()

下载下来后是这个效果，还行，能读。

二、批量下载图片

刚才有过滤图片是不？我们反过来利用它，分分钟就搞定！

提取图片链接即可。它被<img class="BDE_Image" src="(.*?jpg)"这样的形式包含。

# 只保存图片
    def save_images(self, folder):
        page_num = int(self.get_page_num())
        # 文件名序号
        seq = 1
        # 创建文件夹
        os.mkdir(folder)
        # 工程目录切换到当成文件夹
        os.chdir(folder)
        for number in range(1, page_num + 1):
            # 网页全部内容
            html = self.open_url(number)
            img_pattern = re.compile(r'<img class="BDE_Image" src="(.*?jpg)"')
            images = re.findall(img_pattern, html)
            # 每爬一页，休息10秒
            time.sleep(10)
            for each in images:
                # 文件名
                filename = str(seq) + '.jpg'
                # 下载到文件夹
                request.urlretrieve(each, filename)
                # 数字递增方式给文件命名
                seq += 1
                # 每两秒下载一次
                time.sleep(2)

可以适当加入time.sleep(),防止访问频率过快导致爬虫封IP。简单的可以这么做，当然可以用代理，多线程，不过我还没接触到，以后再深入。

居然几百张！大丰收呀，看到图片自动地就被飞速下载到本地了，还用一张张右键吗？No！挂着程序让它跑，看部电影去吧！

整理一下，全部代码如下

from urllib import request, parse
import re
import os
import time

class SpiderBaidu:
    # 初始化帖子原地址，默认只看楼主为否
    def __init__(self, url, see_lz_flag=1):
        self.url = url
        self.see_lz = '?see_lz=' + str(see_lz_flag)
        self.res = []

    def open_url(self, num):
        # 该帖具体网址
        wanted_page = self.url + self.see_lz + '&pn=' + str(num)
        req = request.Request(wanted_page)
        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                     '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
        response = request.urlopen(req)
        html = response.read().decode('utf-8')
        return html

    # 提取标题
    def get_title(self):
        html = self.open_url(1)
        title_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>')
        title = re.findall(title_pattern, html)
        return title[0]

    # 获取总页数
    def get_page_num(self):
        html = self.open_url(1)
        num_pattern = re.compile(r'<span class="red">(\d+)</span>')
        page_num = re.findall(num_pattern, html)
        # 贴吧的最上和最下面都有总页码，随便返回一个即可
        return page_num[0]

    # 获取正文
    def get_content(self, num):
        html = self.open_url(num)
        content_pattern = re.compile(r'<div id="post_content.*?class="d_post_content j_d_post_content'
                                     r'.*?>\s+(.*?)</div>')
        content = re.findall(content_pattern, html)
        return content

    # 去除文字外所有内容
    def get_words_only(self, con):
        for i in con:
            # 删除图片
            each = re.sub(r'<img class=".*?>', '', i)
            # 删除签名
            each = re.sub(r'<div class="post_bubble_top".*?>', '', each)
            # 换行
            each = re.sub(r'<br>', '\n', each)
            # 删除超链接
            each = re.sub(r'<a href=.*?</a>', '', each)
            self.res.append(each)
        return self.res

    # 下载到本地
    def save_text(self):
        # 帖子标题作为文件名
        file_title = self.get_title()
        # 最大页码
        page_num = int(self.get_page_num())
        with open(file_title + '.txt', 'w', encoding='utf-8') as f:
            for number in range(1, page_num + 1):
                con = self.get_content(number)
                result = self.get_words_only(con)
                f.writelines(result)

    # 只保存图片
    def save_images(self, folder):
        page_num = int(self.get_page_num())
        # 文件名序号
        seq = 1
        os.mkdir(folder)
        os.chdir(folder)
        for number in range(1, page_num + 1):
            html = self.open_url(number)
            img_pattern = re.compile(r'<img class="BDE_Image" src="(.*?jpg)"')
            images = re.findall(img_pattern, html)
            time.sleep(10)
            for each in images:
                filename = str(seq) + '.jpg'
                request.urlretrieve(each, filename)
                seq += 1
                time.sleep(2)

if __name__ == '__main__':
    spider = SpiderBaidu('http://tieba.baidu.com/p/4698209454')
    title = spider.get_title()
    total_num = spider.get_page_num()
    print('{}(共{}页)'.format(title, total_num))
    spider.save_text()
    spider.save_images('图')

by @sunhaiyu

2016.8.16