Python爬虫——抓取糗百段子

在别人博客里学习的抓取糗百段子，由于糗百不断的更新，代码需要改正。

抓取网页：http://www.qiushibaike.com/hot/page/1

修改后的代码如下：

# -*- coding:utf-8 -*-

import urllib

import urllib2

import re

import thread

import time

#糗事百科爬虫类

class QSBK:

    #初始化方法，定义一些变量

    def __init__(self):

        self.pageIndex = 1

        #user_agent 从火狐 HttpFox中headers查找到

        #self.user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0)'

        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

        #初始化headers

        self.headers = { 'User-Agent' : self.user_agent }

        #存放段子的变量，每一个元素是每一页的段子们

        self.stories = []

        #存放程序是否继续运行的变量

        self.enable = False

    #传入某一页的索引获得页面代码

    def getPage(self,pageIndex):

        try:

            url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)

            #构建请求的request

            request = urllib2.Request(url,headers = self.headers)

            #利用urlopen获取页面代码

            response = urllib2.urlopen(request)

            #将页面转化为UTF-8编码

            pageCode = response.read().decode('utf-8')

            return pageCode

        except urllib2.URLError, e:

            if hasattr(e,"reason"):

                print u"连接糗事百科失败,错误原因",e.reason

                return None

    #传入某一页代码，返回本页不带图片的段子列表

    def getPageItems(self,pageIndex):

        pageCode = self.getPage(pageIndex)

        if not pageCode:

            print "页面加载失败...."

            return None

        pattern = re.compile('<div class="author clearfix">.*?href.*?<img src.*?title=.*?<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>.*?<i class="number">(.*?)</i>',re.S)

        items = re.findall(pattern,pageCode)

        #print len(items)

        #print "*****items"

        #用来存储每页的段子们

        pageStories = []

        #遍历正则表达式匹配的信息

        i = 0

        for item in items:

            #如果不含有图片，把它加入list中

            #if not haveImg:

                replaceBR = re.compile('<.?span>')

                #将<br/> 用 换行符\n 替换

                text = re.sub(replaceBR,"\n",item[1])

                #item[0]是一个段子的发布者，item[1]是内容，item[2]是发布时间,item[4]是点赞数

                pageStories.append([item[0],text,item[2]])

                #strip()作用：去掉转义字符后输出

        #print item[0] +"-------0t"

        #print item[1] +"-------0T"

        #print text + "******TEXT"

        #print item[2] +"-------0t"

        return pageStories

    #加载并提取页面的内容，加入到列表中

    def loadPage(self):

        #如果当前未看的页数少于2页，则加载新一页

        if self.enable == True:

            if len(self.stories) < 2:

                #获取新一页

                pageStories = self.getPageItems(self.pageIndex)

                #将该页的段子存放到全局list中

                if pageStories:

                    self.stories.append(pageStories)

                    #获取完之后页码索引加一，表示下次读取下一页

                    self.pageIndex += 1

                print len(self.stories)

    #调用该方法，每次敲回车打印输出一个段子

    def getOneStory(self,pageStories,page):

        #遍历一页的段子

        for story in pageStories:

            #等待用户输入

            input = raw_input()

            #每当输入回车一次，判断一下是否要加载新页面

            self.loadPage()

            #如果输入Q则程序结束

            if input == "Q":

                self.enable = False

                return

            #print "$$$"

            print len(story)

            #现在网页已没有发布时间了

            #print u"第%d页\t发布人:%s\t发布时间:%s\t赞:%s\n%s" %(page,story[0],story[2],story[3],story[1])

            print u"第%d页\t发布人:%s\t赞:%s\n%s" %(page,story[0],story[2],story[1])

    #开始方法

    def start(self):

        print u"正在读取糗事百科,按回车查看新段子，Q退出"

        #使变量为True，程序可以正常运行

        self.enable = True

        #先加载一页内容

        self.loadPage()

        #局部变量，控制当前读到了第几页

        nowPage = 0

        while self.enable:

            if len(self.stories)>0:

                #print len(self.stories)

                #print "-------stories"

                #从全局list中获取一页的段子

                pageStories = self.stories[0]

                #当前读到的页数加一

                nowPage += 1

                #将全局list中第一个元素删除，因为已经取出

                del self.stories[0]

                #print "---------------------------------"

                #print len(pageStories)

                #print nowPage

                #输出该页的段子

                self.getOneStory(pageStories,nowPage)

spider = QSBK()

spider.start()

Python爬虫——抓取糗百段子的更多相关文章

Python爬虫抓取糗百的图片，并存储在本地文件夹
思路: 1.观察网页,找到img标签 2.通过requests和BS库来提取网页中的img标签 3.抓取img标签后,再把里面的src给提取出来,接下来就可以下载图片了 4.通过urllib的urll ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
Python爬虫 -- 抓取电影天堂8分以上电影
看了几天的python语法,还是应该写个东西练练手.刚好假期里面看电影,找不到很好的影片,于是有个想法,何不搞个爬虫把电影天堂里面8分以上的电影爬出来.做完花了两三个小时,撸了这么一个程序.反正蛮简单 ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
python爬虫抓取一个网站的所有网址链接
sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campai ...

随机推荐

C#必须掌握的系统类
系统类 Type类,Object类,String类, Arrary类,Console类, Exception类,GC类, MarshalByRefObject类, Math类. DateTime结构 ...
ECSTORE1.2 重启开启信任登陆模块(删除KEY)
1).若启用Mongodb 需要删除KEY分别为 1 2 3 be90a668d9f2eb1950bae1bf6b0835ce 939e64939c3f65cfb646e7948c5b80df 58d ...
使用C# DES解密java DES加密的字符串
转自 microAllen 最近需要使用C#的DES解密工具类解密字符串,但是要解密的字符串是使用java进行DES加密的,去网上查了关于C#和java关于DES加密解密的资料,发现可以相互加密解 ...
JS获取select的值
记录一下JS获取select的value值和选项值 <select id="video_status"> <option value="1" ...
开始慢慢学习这本书了。。Python编程实战：运用设计模式、并发和程序库创建高质量程序
没办法,不到设计模式,算法组合这些,在写大一点程序的时候,总是力不从心...:( 一开始可能要花很多时间来慢慢理解吧,,这毕竟和<大话设计模式>用的C#语言有点不太一样... 书上代码是3 ...
haskell学习笔记_函数
一开始学习函数式编程语言就被告知函数式编程语言是一种“定义式”的语言,而不是一种命令式的语言,在学习haskell的函数语法时,此感觉更加强烈,haskell的函数定义倾向于一种类似C++里面的swi ...
LeetCode_Edit Distance
Given two words word1 and word2, find the minimum number of steps required to convert word1 to word2 ...
为什么Linux不需要碎片整理？
如果你是一个 Linux 用户,你可能会听说 Linux 的文件系统不需要碎片整理.你也可能会注意到 Linux 的发行版本也都没有磁盘碎片整理的功能.这是为什么呢? 要理解为什么 Linux 的文件 ...
Teach Yourself Scheme in Fixnum Days 6 recursion递归
A procedure body can contain calls to other procedures, not least itself: (define factorial (lambda ...
模仿TMALL搜索，下拉提示优化用户keypress停顿200毫秒间隔时，在执行异步取数据操作通过underscore的函数debounce来实现

Python爬虫——抓取糗百段子

Python爬虫——抓取糗百段子的更多相关文章

随机推荐

热门专题