Python爬虫(二)爬百度贴吧楼主发言

爬取电影吧一个帖子里的所有楼主发言：

# python2

# -*- coding: utf-8 -*-

import urllib2

import string

import re

class Baidu_Spider:

    feature_pattern = re.compile(r'id="post_content.*?>\s+(.*?)</div>', re.S)

    replaceList = [(''', '\''), ('&quot;', '\"')]

    def __init__(self, url):

        self.url = url + '?see_lz=1'

    def crawl_tieba_lz(self):

        begin_page = urllib2.urlopen(self.url).read()

        self.print_page_title(begin_page)

        count = self.get_page_count(begin_page)

        self.handle_data(count)

    def handle_data(self, count):

        f = open('tieba_lz.txt', 'w+')

        for i in range(count):

            url = self.url + '&pn=' + str(i+1)

            hint = '第' + str(i+1) + '页'

            print '正在下载%s: %s' % (hint, url)

            page = urllib2.urlopen(url).read()

            features = re.findall(self.feature_pattern, page)

            print hint + '下载完成'

            print '共有%d条记录' % len(features)

            f.write(hint + ':\n')

            for feature in features:

                feature = self.handle_record(feature)

                print feature

                f.write(feature + '\n\n')

        f.close()

        print 'done'

    def handle_record(self, record):

        record = re.sub(r'(<|</)br>', '\n', record)

        record = re.sub(r'<.*?>', '', record)

        for item in self.replaceList:

            record = record.replace(item[0], item[1])

        return record

    def get_page_count(self, page):

        result = re.search(r'class="red">(\d+?)</span>', page, re.S)

        if result:

            count = int(result.group(1))

            print '一共%d页' % count

        else:

            count = 0;

            print '无法获取页数'

        return count

    def print_page_title(self, page):

        result = re.search(r'<h1.*?>(.*?)</h1>', page, re.S)

        if result:

            title = result.group(1)

            print '标题: %s' % title

        else:

            print '无法获取标题'

spider = Baidu_Spider('http://tieba.baidu.com/p/4082863285')

spider.crawl_tieba_lz()

Python爬虫(二)爬百度贴吧楼主发言的更多相关文章

Python爬虫(一)爬百度贴吧
简单的GET请求: # python2 import urllib2 response = urllib2.urlopen('http://www.baidu.com') html = respons ...
Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
Python 爬虫实战2 百度贴吧帖子
爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖内容将抓取到的内容分析并保存到文件 1.URL格式的确定首先, ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
【Python必学】Python爬虫反爬策略你肯定不会吧？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 正文 Python爬虫反爬策略三部曲,拥有这三步曲就可以在爬虫界立足了: ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

随机推荐

11-Json提取器使用
1.使用json提取关键信息有时候接口返回数据为json数据或者直接为一个列表,可使用这个更简单快捷 json数据: 这样的,数据有在result里面以列表形式存在,也有在列表外的,可在json提取 ...
【Selenium07篇】python+selenium实现Web自动化：PO模型，PageObject模式！
一.前言最近问我自动化的人确实有点多,个人突发奇想:想从0开始讲解python+selenium实现Web自动化测试,请关注博客持续更新! 这是python+selenium实现Web自动化第七篇博 ...
【高并发】不废话，言简意赅介绍BlockingQueue
写在前面最近,有不少网友留言提问:在Java的并发编程中,有个BlockingQueue,它是个阻塞队列,为何要在并发编程里使用BlockingQueue呢?好吧,今天,就临时说一下Blocking ...
Centos7_搭建暗网网站
Tor运行原理请求方需要使用:洋葱浏览器(Tor Browser)来对暗网网站进行访问响应放需要使用:Tor协议的的Hidden_service 搭建步骤更新YUM源: rpm -Uvh htt ...
对于不平凡的我来说，从小我就在想为啥别人就什么都能拥有，而看看自己却什么都没有，对于原来的我就会抱怨爸妈怎么没有别人父母都能给自己想要的，可我从未想过父母的文化只有小学，其实父母内心也有太多的辛酸，所以我不甘愿如此，从此让我在大学里面直接选择一个让我巨大的转折————IT。
对于不平凡的我来说,从小我就在想为啥别人就什么都能拥有,而看看自己却什么都没有,对于原来的我就会抱怨爸妈怎么没有别人父母都能给自己想要的,可我从未想过父母的文化只有小学,其实父母内心也有太多的辛酸,所 ...
HttpWebRequest在Post的时候，遇到特殊符号+号（加号）变成空格了
今天在调用一个外部接口的时候遇到一个问题,外部接口说要用FOMR的POST方法提交. OK,没问题,我加了个ASPX页面,里面加了个FORM表单和一些元素,提交,返回值成功.注意看下面这一句:但返回值 ...
用Python做一个知乎沙雕问题总结
用Python做一个知乎沙雕问题总结松鼠爱吃饼干2020-04-01 13:40 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以 ...
Daily Scrum 1/6/2015
Process: Zhaoyang: Complete the speech API test and do some UI upgrade. Yandong: Help zhaoyang to do ...
Nginx安装、多域名访问
nginx web服务 apache iis django web框架 lvs 负载均衡章文嵩博士 vue 尤雨溪 Tengine F5 硬件负载 A10 安装 ``` wget http://ng ...
前端基础进阶(六)-大厂面试题问题:循环闭包与setTimeout
我在上一篇闭包的文章中留下了一个关于setTimeout与循环闭包的思考题. 利用闭包,修改下面的代码,让循环输出的结果依次为1, 2, 3, 4, 5 for (var i = 1; i <= ...

Python爬虫(二)爬百度贴吧楼主发言

Python爬虫(二)爬百度贴吧楼主发言的更多相关文章

随机推荐

热门专题