糗事百科python爬虫

# -*- coding: utf-8 -*-

#coding=utf-8

import urllib

import urllib2

import re

import thread

import time

class QSBK:

    def __init__(self):

        self.pageIndex=1

        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

        self.header={'User-Agent':self.user_agent}

        self.store=[]

        self.enable=False

    def getPage(self,pageIndex):

        try:

            url = 'http://www.qiushibaike.com/hot/page/'+str(pageIndex)

            request = urllib2.Request(url,headers=self.header)

            response = urllib2.urlopen(request)

            pageHtml =response.read().decode('utf-8')

            return pageHtml

        except urllib2.URLError,e:

            print '链接网络失败'+e.reason

            return None

    def getPageItem(self,pageIndex):

        page = self.getPage(pageIndex)

        if page==None:

            print "页面获得失败"

            return  None

        pattern = re.compile('<div class="author.*?<a.*?<img.*?</a>.*?<a.*?<h2>(.*?)</h2>.*?class="content.*?<span>\s*(.*?)\s*</span>',re.S)

        items = re.findall(pattern, page)

        pageStories = []

        for item in items:

            pageStories.append([item[0],item[1]])

        return pageStories

    def loadPage(self):

        if self.enable==True:

            if len(self.store)<2:

                pageStories = self.getPageItem(self.pageIndex)

                if pageStories!=None:

                    self.store.append(pageStories)

                    self.pageIndex+=1

    def getOneStory(self,pageStories):

        for story in pageStories:

            input= raw_input()

            self.loadPage()

            if input=='Q':

                self.enable=False

                return

            print u'%s %s'%(story[0],story[1])

    def start(self):

        print u"正在读取糗事百科的数据，按Q退出"

        self.enable=True

        self.loadPage()

        nowPage=0

        while self.enable:

            if len(self.store)>0:

                pageStore=self.store[0]

                nowPage+=1

                del self.store[0]

                self.getOneStory(pageStore)

spider =QSBK()

spider.start()

糗事百科python爬虫的更多相关文章

Python 之糗事百科多线程爬虫案例
import requests from lxml import etree import json import threading import queue # 采集html类 class Get ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
python scrapy实战糗事百科保存到json文件里
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scra ...
爬虫_糗事百科（scrapy）
糗事百科scrapy爬虫笔记 1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据 2.提取出来的数 ...
利用python的爬虫技术爬去糗事百科的段子
初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页技术实现:基于python的实现, ...
Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/h ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
[Python]网络爬虫（八）：糗事百科的网络爬虫（v0.2）源码及解析
转自:http://blog.csdn.net/pleasecallmewhy/article/details/8932310 项目内容: 用Python写的糗事百科的网络爬虫. 使用方法: 新建一个 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...

随机推荐

angular2+ form 表单中 input输入框的disabled属性设置无效
最近项目中遇到一个表单input设置disabled问题,直接赋值angular原生的[disabled]=“isDisabled”无效,浏览器警告信息: 无奈,只能按照控制台提示修改: 问题解决
使用POI解析Excel文件
Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能. 下载开发包: 解压上面的zip文件: 在项目中引入 ...
ArrayList集合例题,商品库存管理（集合）
创建车库集合,存进车 public class demo1 { String pinpai; String c; int s; } import java.util.ArrayList; class ...
漫谈Ajax在.Net中的使用
引用地址:http://birdshover.cnblogs.com/archive/2006/07/03/441439.html AJAX出来的时间也不短了.虽然它在某些方面很受争议,但是瑕不掩瑜. ...
common-fileupload组件实现java文件上传和下载
简介:文件上传和下载是java web中常见的操作,文件上传主要是将文件通过IO流传放到服务器的某一个特定的文件夹下,而文件下载则是与文件上传相反,将文件从服务器的特定的文件夹下的文件通过IO流下载到 ...
操作系统(3)_CPU调度_李善平ppt
不只上面的四种,比如时间片到了也会引起调度. 具体的调度算法: fcfs简单,但是波动很大. 最高相应比算法,执行时间最长就应该等待的长点,比sjf多了一个等待时间的考虑. 硬件定时器和软件计数器共同 ...
WireShark抓包命令
本机环回包在进行通信开发的过程中,我们往往会把本机既作为客户端又作为服务器端来调试代码,使得本机自己和自己通信.但是wireshark此时是无法抓取到数据包的,需要通过简单的设置才可以. 具体方法如 ...
dynamic routing between captual
对于人脑决策树形式对于CNN 层级与层级间的传递人在识别物体的时候会进行坐标框架的设置 CNN无法识别,只能通过大量训练胶囊 :一个神经元集合,有一个活动的向量,来表示物体的各类信息,向量的长 ...
UNIX网络通信
一.网络协议国际标准化组织(ISO)定义了网络协议的基本框架,被称为OSI模型.OSI模型包括应用层.表示层.会话层.传输层.网络层.数据链路层及物理层.而OSI模型过于复杂至今没有得到实际的应用. ...
3.Cisco Packet Tracer中关于交换机端口安全的设置
本次实验将在这幅拓扑图的基础上完成我们会对pc0在交换机上进行mac地址绑定,pc1访问时则交换机断开端口 1.为pc机配置ip地址 pc0:192.168.1.1 pc1:192.168.1.2 ...

糗事百科python爬虫

糗事百科python爬虫的更多相关文章

随机推荐

热门专题