Python爬虫(二)爬百度贴吧楼主发言

爬取电影吧一个帖子里的所有楼主发言：

# python2

# -*- coding: utf-8 -*-

import urllib2

import string

import re

class Baidu_Spider:

    feature_pattern = re.compile(r'id="post_content.*?>\s+(.*?)</div>', re.S)

    replaceList = [(''', '\''), ('&quot;', '\"')]

    def __init__(self, url):

        self.url = url + '?see_lz=1'

    def crawl_tieba_lz(self):

        begin_page = urllib2.urlopen(self.url).read()

        self.print_page_title(begin_page)

        count = self.get_page_count(begin_page)

        self.handle_data(count)

    def handle_data(self, count):

        f = open('tieba_lz.txt', 'w+')

        for i in range(count):

            url = self.url + '&pn=' + str(i+1)

            hint = '第' + str(i+1) + '页'

            print '正在下载%s: %s' % (hint, url)

            page = urllib2.urlopen(url).read()

            features = re.findall(self.feature_pattern, page)

            print hint + '下载完成'

            print '共有%d条记录' % len(features)

            f.write(hint + ':\n')

            for feature in features:

                feature = self.handle_record(feature)

                print feature

                f.write(feature + '\n\n')

        f.close()

        print 'done'

    def handle_record(self, record):

        record = re.sub(r'(<|</)br>', '\n', record)

        record = re.sub(r'<.*?>', '', record)

        for item in self.replaceList:

            record = record.replace(item[0], item[1])

        return record

    def get_page_count(self, page):

        result = re.search(r'class="red">(\d+?)</span>', page, re.S)

        if result:

            count = int(result.group(1))

            print '一共%d页' % count

        else:

            count = 0;

            print '无法获取页数'

        return count

    def print_page_title(self, page):

        result = re.search(r'<h1.*?>(.*?)</h1>', page, re.S)

        if result:

            title = result.group(1)

            print '标题: %s' % title

        else:

            print '无法获取标题'

spider = Baidu_Spider('http://tieba.baidu.com/p/4082863285')

spider.crawl_tieba_lz()

Python爬虫(二)爬百度贴吧楼主发言的更多相关文章

Python爬虫(一)爬百度贴吧
简单的GET请求: # python2 import urllib2 response = urllib2.urlopen('http://www.baidu.com') html = respons ...
Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
Python 爬虫实战2 百度贴吧帖子
爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖内容将抓取到的内容分析并保存到文件 1.URL格式的确定首先, ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
【Python必学】Python爬虫反爬策略你肯定不会吧？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 正文 Python爬虫反爬策略三部曲,拥有这三步曲就可以在爬虫界立足了: ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

随机推荐

hadoop(三)伪分布模式hdfs文件处理|5
伪分布模式hdfs 1.启动hsfs 2. 编辑vi hadoop-env.sh image.png image.png 3.配置nameNode和生产文件第地址 [shaozhiqi@hadoop1 ...
mysql 主键和默认设为索引的规则
一.mysql 表中如果是单主键的话,那这个主键也会被系统默认建为索引二.mysql 表中如果是复合主键的话,那系统会遵循左对齐原则,即如复合主键 a 和 b字段和c字段..., 默认建的主键索 ...
【翻译】Java Array的排名前十方法(Top 10 Methods for Java Arrays)
这里列举了Java Array 的前十的方法.他们在stackoverflow最大投票的问题. The following are top 10 methods for Java Array. The ...
k3s-初体验
k3s安装步骤 1.准备工作关闭swap交换分区 swapoff -a 关闭防火墙 systemctl stop firewalld.service 2.下载启动k3s包 https://githu ...
在vue中使用ztree树插件
插件资源及api:树官网本事例是在vue3.0+中演示,事例是实际项目中正在用的组件所以部分打了马赛克. 1.插件准备(提前准备好插件文件) 可以直接在官网下载,搭建好脚手架后将准备好的文件放在li ...
React AntDesign 引入css
React项目是用umi脚手架搭建的AntDesign,用到一个第三方表格组件Jexcel,npm install 之后组件的样式加载不上,犯了愁,翻阅各种资料,踏平两个小坑. 大家都知道,安装完成的 ...
如何利用python实现报表自动化？让你更高效的完成工作内容
如果能够实现报表自动化,那我们将节约不少的时间,更高效的完成工作内容.那么,如何利用python实现报表自动化呢?本文将介绍xlwt .xlrd.xlutils的常用功能,xlwt写Excel时公式的 ...
[YII2] Activeform表单部分组件使用方法
文本框:textInput(); 密码框:passwordInput(); 单选框:radio(),radioList(); 复选框:checkbox(),checkboxList(); 下拉框:dr ...
设计模式-原型模式（Prototype）【重点：浅复制与深复制】
讲故事最近重温了一下星爷的<唐伯虎点秋香>,依然让我捧腹不已,幻想着要是我也能有一名秋香如此的侍女,夫复何求呀,带着这个美好的幻想沉沉睡去... 突然想到,我是一名程序猿呀,想要什么对象 ...
Ipython入门小教程
学习<利用python进行数据分析>第三章 IPython:一种交互式计算和开发环境的笔记,共享给大家,同时为自己作为备忘用. 安装ipython用pip即可.ps.博主用的是win7系统 ...

Python爬虫(二)爬百度贴吧楼主发言

Python爬虫(二)爬百度贴吧楼主发言的更多相关文章

随机推荐

热门专题