Python爬虫实战（一）：爬糗事百科段子

代码：

# _*_ coding:utf-8 _*_

import urllib2

import re

from datetime import datetime

class QSBK:

    def __init__(self):

        self.pageIndex = 1

        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

        self.headers = {'User-Agent':self.user_agent}

        self.stories = []

        self.enable = False

    def getPage(self,pageIndex):

        try:

            url = 'http://www.qiushibaike.com/hot/page'+str(pageIndex)

            request = urllib2.Request(url,headers = self.headers)

            response = urllib2.urlopen(request)

            pageCode = response.read().decode('utf-8')

            return pageCode

        except urllib2.URLError,e:

            if hasattr(e,'reason'):

                print u"QSBK connect Error,reason: ",e.reason

                return None

    def getPageItems(self,pageIndex):

        pageCode = self.getPage(pageIndex)

        if not pageCode:

            print "Page Loading Error..."

            return None

        pattern = re.compile('<div.*?author clearfix">.*?<a.*?<img.*?>(.*?)</a>.*?<a.*?<h2>(.*?)</h2>.*?</a>.*?<div.*?'+'content">(.*?)<!--(.*?)-->.*?</div>.*?<div class="stats.*?class="number">(.*?)</i>',re.S)

        items = re.findall(pattern,pageCode)

        pageStories = []

        for item in items:

            haveImg = re.search("img",item[0])

            if not haveImg:

                replaceBR = re.compile('<br/>')

                text = re.sub(replaceBR,"\n",item[2])

                pageStories.append([item[1].strip(),text.strip(),item[3].strip(),item[4].strip()])

        return pageStories

    def loadPage(self):

        if self.enable == True:

            if len(self.stories) < 2:

                pageStories = self.getPageItems(self.pageIndex)

                if pageStories:

                    self.stories.append(pageStories)

                    self.pageIndex += 1

    def getOneStory(self,pageStories,page):

         for story in pageStories:

             input = raw_input()

             self.loadPage()

             if input == 'Q':

                 self.enable = False

                 return

             print u"第%d页\t发布人：%s\t发布时间：%s\t赞：%s\n%s" %(page,story[0],datetime.fromtimestamp(int(story[2])),story[3],story[1])

    def start(self):

         print u"正在读取糗事百科，按回车查看新段子，Q退出"

         self.enable = True

         self.loadPage()

         nowPage = 0

         while self.enable:

             if len(self.stories)>0:

                 pageStories = self.stories[0]

                 nowPage += 1

                 del self.stories[0]

                 self.getOneStory(pageStories,nowPage)

spider = QSBK()

spider.start()

Python爬虫实战（一）：爬糗事百科段子的更多相关文章

Python爬虫实战：爬糗事百科的段子
一个偶然的机会接触了Python,感觉很好用,但是一直在看c++啥的,也没系统学习.用过之后也荒废了许久.之前想建个公众号自动爬糗事百科的段子,但是没能建起来,真是尴尬,代码上传的服务器上之后,不能正 ...
【Python爬虫实战】多线程爬虫---糗事百科段子爬取
多线程爬虫:即程序中的某些程序段并行执行,合理地设置多线程,可以让爬虫效率更高糗事百科段子普通爬虫和多线程爬虫分析该网址链接得出:https://www.qiushibaike.com/8hr/pag ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
Python爬虫爬取糗事百科段子内容
参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
Python爬虫批量下载糗事百科段子，怀念的天王盖地虎，小鸡炖蘑菇...
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...

随机推荐

CAS与LDAP集成
参考文献: CAS集成ldap:https://wiki.jasig.org/display/CASUM/LDAP CAS集成restful api:https://wiki.jasig.org/di ...
hdu1465（放错信错排公式）
Problem Description 大家常常感慨,要做好一件事情真的不容易,确实,失败比成功容易多了! 做好“一件”事情尚且不易,若想永远成功而总从不失败,那更是难上加难了,就像花钱总是比挣钱容易 ...
mysql大文本数据类型的使用需要考虑实际情况
mysql数据类型简介(http://news.newhua.com/news1/program_database/2008/618/08618103911CD92HJ6CKI2I9I0AH5CGK1 ...
高速排序C++实现
//高速排序 #include<iostream> #include<functional> #include<Windows.h> using namespace ...
对一个前端使用AngularJS后端使用ASP.NET Web API项目的理解(4)
chsakell分享了一个前端使用AngularJS,后端使用ASP.NET Web API的项目. 源码: https://github.com/chsakell/spa-webapi-angula ...
Drectx 3D窗口后台截图
//GDI与DX截屏API操作 LPDIRECTDRAW lpDD = NULL; LPDIRECTDRAWSURFACE lpDDSPrime = NULL; LPDIRECTDRAWSURFACE ...
android：活动的最佳实践
2.6.1 知晓当前是在哪一个活动这个技巧将教会你,如何根据程序当前的界面就能判断出这是哪一个活动.可能你会觉得挺纳闷的,我自己写的代码怎么会不知道这是哪一个活动呢?很不幸的是,在你真正进入 ...
ios测试宏指令出错：“Expected identefier”
写了一个简单的测试宏指令,然后在下面代码中报错,不知道怎么修复?谢谢 #define test(condition) do{\ if (condition) {\ //// <-----Expe ...
windows下PHP不能开启pgsql扩展的解决方法
Tip: 环境 windows8.1 64位 + xampp1.8.1 + postgresql 9.3.6-2 第一步: php.ini中开启pgsql扩展 extension=php_pgsql ...
Linux学习11-CentOS如何设置java环境变量
前言之前用yum安装的java,现在想添加环境变量,yum安装的java路径在哪呢?如何找到安装的路径,把jdk添加到环境变量. 本篇详细讲解linux系统设置java环境变量找到jdk路径之前 ...

Python爬虫实战（一）：爬糗事百科段子

Python爬虫实战（一）：爬糗事百科段子的更多相关文章

随机推荐

热门专题