【python】抄写大神的糗事百科代码

照着静觅大神的博客学习，原文在这：http://cuiqingcai.com/990.html

划重点：

1. str.strip() strip函数会把字符串的前后多余的空白字符去掉

2. response.read().decode('utf-8','ignore') 要加'ignore'忽略非法字符，不然总是报解码错误

3. python 3.x 中 raw_input 改成 input 了

4. 代码最好用notepad++先写格式清晰一点容易发现错尤其是缩进和中文标点的错误

5. .*? 常用组合，后面的?表示非贪婪模式

用python3.4.3实现的糗百爬虫代码如下（就是照着大神的抄的，把2.x的部分给改了而已）：

import urllib.request

import urllib.parse

import re

import time

#糗事百科爬虫类

class QSBK:

    #初始化方法，定义一些变量

    def __init__(self):

        self.pageIndex = 1

        self.user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36'

        self.headers = {'User-Agent' : self.user_agent}

        #存放段子的变量，每个元素是每一页的段子

        self.stories = []

        #存放程序是否继续运行的变量

        self.enable = False

    #传入某一页的索引获得页面代码

    def getPage(self, pageIndex):

        try:

            url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)

            request = urllib.request.Request(url, headers = self.headers)

            response = urllib.request.urlopen(request)

            pageCode = response.read().decode('utf-8','ignore') #这个ignore忽略非法字符 一定要加 不然总报解码错误

            return pageCode

        except urllib.error.URLError as e:

            if hasattr(e, "reason"):

                print(u"连接糗事百科失败，错误原因：", e.reason)

                return None

    #传入某一页代码，返回本页不断图片的段子列表

    def getPageItems(self, pageIndex):

        pageCode = self.getPage(pageIndex)

        if not pageCode:

            print(u"页面加载失败....")

            return None

        pattern = re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+

        'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">(.*?)</i>', re.S)

        items = re.findall(pattern, pageCode)

        #用来存储每页的段子

        pageStories = []

        for item in items:

            haveImg = re.search("img", item[3])

            if not haveImg:

                replaceBR = re.compile('<br/>')

                text = re.sub(replaceBR, "\n", item[1])

                pageStories.append([item[0].strip(), text.strip(),item[4].strip()]) #.strip（） 用来删除空白符

        return pageStories

    #加载并提取页面的内容，加入到列表中

    def loadPage(self):

        #如果当前未看的页数少于2页，则加载新一页

        if self.enable == True:

            if len(self.stories) < 2:

                #获取新一页

                pageStories = self.getPageItems(self.pageIndex)

                #将该页的段子存放到全局list中

                if pageStories:

                    self.stories.append(pageStories)

                    #页码加1，下次读取下一页

                    self.pageIndex += 1

    #每次敲回车打印一个段子

    def getOneStory(self,pageStories,page):

        #遍历一页的段子

        for story in pageStories:

            #等待用户输入

            input_v = input()

            #每当输入回车一次，判断一下是否要加载新页面

            self.loadPage()

            #如果输入Q则程序结束

            if input_v == "Q":

                self.enable = False

                return

            print(u"第%d页\t发布人：%s\t赞：%s\n%s" % (page, story[0], story[2],story[1]))

    #开始方法

    def start(self):

        print(u"正在读取糗事百科，按回车查看新段子，Q退出")

        #使变量为True，程序可以正常运行

        self.enable = True

        #先加载一页内容

        self.loadPage()

        #局部变量，控制当前读到2了第几页

        nowPage = 0

        while self.enable:

            if len(self.stories) > 0:

                #从全局list中获取一页段子

                pageStories = self.stories[0]

                #当前读到的页数加1

                nowPage += 1

                #删除已经取出的元素

                del self.stories[0]

                #输出该页的段子

                self.getOneStory(pageStories,nowPage)

spider = QSBK()

spider.start()

【python】抄写大神的糗事百科代码的更多相关文章

python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
Python爬虫实战：爬糗事百科的段子
一个偶然的机会接触了Python,感觉很好用,但是一直在看c++啥的,也没系统学习.用过之后也荒废了许久.之前想建个公众号自动爬糗事百科的段子,但是没能建起来,真是尴尬,代码上传的服务器上之后,不能正 ...
Python爬虫：爬取糗事百科
网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf- ...
【python】抄写大神的百度贴吧代码
原文链接:http://cuiqingcai.com/993.html 划重点: 1.提取帖子内容时,对图片,贴吧自动增加的超链接,制表符,换行符要做删除或替换处理 2.decode是把bytes转换 ...
python+正则+多进程爬取糗事百科图片
话不多说,直接上代码: # 需要的库 import requests import re import os from multiprocessing import Pool # 请求头 header ...
python+BeautifulSoup+多进程爬取糗事百科图片
用到的库: import requests import os from bs4 import BeautifulSoup import time from multiprocessing impor ...
python scrapy实战糗事百科保存到json文件里
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scra ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫批量下载糗事百科段子，怀念的天王盖地虎，小鸡炖蘑菇...
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...

随机推荐

Hyper-v创建检查点(VM的快照功能)
一. 问题描述在Hyper的默认设置中没有创建检查点的功能,是因为他启用的并不是标准设置.设置检查点时会二. 解决方法再设置检查点就没问题了
Mybatis实例教程整体说明
什么是mybatisMyBatis是支持普通SQL查询,存储过程和高级映射的优秀持久层框架.MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及结果集的检索.MyBatis使用简单的XML或 ...
MongoDB的复制一：复制的原理
1.复制的角色复制有三种角色: primay:主库,执行所有的写操作,并把日志写入oplog里. secondary:复制主库的所有操作.读取主库的oplog,并执行日志里的内容.默认情况下,客户端 ...
chm文件空白如何解决
解决办法:http://jingyan.baidu.com/article/8275fc86b5fb6646a03cf6b0.html
kudu介绍及安装配置
kudu介绍及安装配置介绍 Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器.Kudu 共享 Hadoop 生态系统应用的常见技术特性: 它在 commodity har ...
BZOJ4419 SHOI2013发微博（平衡树）
好友状态的变化次数不会超过m,于是考虑暴力,对每个人记录其好友关系的变化,通过前缀和计算贡献.这需要查询一段前缀时间内某人发的微博数量,可以离线建一棵绝对平衡的平衡树.事实上完全可以线性. #incl ...
【题解】JSOI2010满汉全席
~bzoj1823 第一次接触2-SAT——SAT,即适定性(Satisfiability)的缩写.像名称所说,即满足需求的可能性问题,而k-SAT即每个人有k种需求,已经证明k>2时是一个NP ...
【BZOJ 3316】JC loves Mkk 01分数规划+单调队列
单调栈不断吞入数据维护最值,数据具有单调性但不保证位置为其排名,同时可以按照进入顺序找出临近较值单调队列队列两端均可删除数据但只有队末可以加入数据,仍然不断吞入数据但同时可以额外刨除一些不符合条件的数 ...
[BZOJ3829][Poi2014]FarmCraft 贪心
这个题应该是很容易想到贪心的,只要可是怎么贪才是科学的呢?我们分析一下题干,对于每个边只能一进一出因此,对于树上的一棵子树,我们只要一进子树就必须遍历完,因此我们只能进行一遍 dfs() 然后我们发现 ...
Qt5 界面中文乱码问题
1.文件所在项目文件 xxx.pro 中添加: QMAKE_CXXFLAGS += -execution-charset:utf- 2.文件以 UTF-8 编码保存 3.添加 utf-8 BOM

【python】抄写大神的糗事百科代码

【python】抄写大神的糗事百科代码的更多相关文章

随机推荐

热门专题