Python 爬虫之阅读呼叫转移（一）

https://blog.csdn.net/jcjc918/article/details/37533073

你是否苦恼于网上无法下载的“小说在线阅读”内容？或是某些文章的内容让你非常有收藏的冲动，却找不到一个下载的链接？是不是有种自己写个程序把全部搞定的冲动？是不是学了 python。想要找点东西大展拳脚，告诉别人“哥但是非常牛逼的！

”？那就让我们開始吧。哈哈~

好吧。我就是近期写 Yii 写多了，想找点东西调剂一下.... = =

本项目以研究为目的，全部版权问题我们都是站在作者的一边，以看盗版小说为目的的读者们请自行面壁！

说了这么多，我们要做的就是把小说正文的内容从网页上爬下来，我们的研究对象是全本小说网....再次声明。不正确不论什么版权负责....

一開始先做最基础的内容，就是把某一章的内容抓取下来。

环境：Ubuntu, Python 2.7

基础知识

这个程序涉及到的知识点有几个，在这里列出来，不具体讲。有疑问的直接百度会有一堆的。

1.urllib2 模块的 request 对像来设置 HTTP 请求，包括抓取的 url，和伪装浏览器的代理。

然后就是 urlopen 和 read 方法，都非常好理解。

2.chardet 模块，用于检測网页的编码。

在网页上抓取数据非常easy遇到乱码的问题，为了推断网页是 gtk 编码还是 utf-8 。所以用 chardet 的 detect 函数进行检測。在用 Windows 的同学能够在这里 http://download.csdn.net/detail/jcjc918/8231371 下载。解压到 python
的 lib 文件夹下就好。

3. decode 函数将字符串从某种编码转为 unicode 字符，而 encode 把 unicode 字符转为指定编码格式的字符串。

4. re 模块正則表達式的应用。search 函数能够找到和正則表達式相应匹配的一项。而 replace 则是把匹配到的字符串替换。

思路分析：

我们选取的 url 是 http://www.quanben.com/xiaoshuo/0/910/59302.html。斗罗大陆的第一章。你能够查看网页的源码，会发现仅仅有一个 content 标签包括了全部章节的内容，所以能够用正则把 content 的标签匹配到，抓取下来。试着把这一部分内容打印出来，会发现非常多 <br /> 和 &nbsp。<br /> 要替换成换行符， &nbsp 是网页中的占位符。即空格，替换成空格就好。这样一章的内容就非常美观的出来了。完整起见，相同用正则把标题爬下来。

# -*- coding: utf-8 -*-

import urllib2

import re

import chardet

class Book_Spider:

    def __init__(self):

        self.pages = []

    # 抓取一个章节

    def GetPage(self):

        myUrl = "http://www.quanben.com/xiaoshuo/0/910/59302.html";

        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

        headers = { 'User-Agent' : user_agent }

        request = urllib2.Request(myUrl, headers = headers)

        myResponse = urllib2.urlopen(request)

        myPage = myResponse.read()

        #先检測网页的字符编码,最后统一转为 utf-8

        charset = chardet.detect(myPage)

        charset = charset['encoding']

        if charset == 'utf-8' or charset == 'UTF-8':

            myPage = myPage

        else:

            myPage = myPage.decode('gb2312','ignore').encode('utf-8')

        unicodePage = myPage.decode("utf-8")

        try:

            #抓取标题

            my_title = re.search('<h1>(.*?)</h1>',unicodePage,re.S)

            my_title = my_title.group(1)

        except:

            print '标题 HTML 变化。请又一次分析！'

            return False

        try:

            #抓取章节内容

            my_content = re.search('<div.*?

id="htmlContent" class="contentbox">(.*?)<div',unicodePage,re.S)

            my_content = my_content.group(1)

        except:

            print "内容 HTML 变化，请又一次分析！"

            return False

        #替换正文中的网页代码

        my_content = my_content.replace("<br />","\n")

        my_content = my_content.replace(" "," ")

        #用字典存储一章的标题和内容

        onePage = {'title':my_title,'content':my_content}

        return onePage

    # 用于载入章节

    def LoadPage(self):

        try:

            # 获取新的章节

            myPage = self.GetPage()

            if myPage == False:

                print '抓取失败！'

                return False

            self.pages.append(myPage)

        except:

            print '无法连接server。'

    #显示一章

    def ShowPage(self,curPage):

            print curPage['title']

            print curPage['content']

    def Start(self):

        print u'開始阅读......\n'

        #把这一页载入进来

        self.LoadPage()

        # 假设self的pages数组中存有元素

        if self.pages:

            nowPage = self.pages[0]

            self.ShowPage(nowPage)

#----------- 程序的入口处 -----------

print u"""

---------------------------------------

   程序：阅读呼叫转移

   版本号：0.1

   作者：angryrookie

   日期：2014-07-05

   语言：Python 2.7

   功能：按下回车浏览章节

---------------------------------------

"""

print u'请按下回车：'

raw_input()

myBook = Book_Spider()

myBook.Start()

程序执行完在我这里但是非常好看的，不信请看：^_^

Python 爬虫之阅读呼叫转移（一）的更多相关文章

Python 爬虫之阅读呼叫转移（三）
尽管上一篇博客中我们能够连续地阅读章节了,可是.难道每一次看小说都执行一下我们的 Python 程序?连记录看到哪里都不行,每次都是又一次来过?当然不能这样,改! 如今这么多小说阅读器,我们仅仅须要把 ...
用python爬虫监控CSDN博客阅读量
作为一个博客新人,对自己博客的访问量也是很在意的,刚好在学python爬虫,所以正好利用一下,写一个python程序来监控博客文章访问量效果代码会自动爬取文章列表,并且获取标题和访问量,写入exc ...
Python爬虫入门
Python爬虫简介(来源于维基百科): 网络爬虫始于一张被称作种子的统一资源地址(URLs)列表.当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张＂待访列表＂,即 ...
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
Python爬虫初学（二）—— 爬百度贴吧
Python爬虫初学(二)-- 爬百度贴吧昨天初步接触了爬虫,实现了爬取网络段子并逐条阅读等功能,详见Python爬虫初学(一). 今天准备对百度贴吧下手了,嘿嘿.依然是跟着这个博客学习的,这次仿照 ...
[Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
[转]Python爬虫框架--pyspider初体验
标签: python爬虫pyspider 2015-09-05 10:57 9752人阅读评论(0) 收藏举报分类: Python(8) 版权声明:本文为博主原创文章,未经博主允许不得转载. ...
Python爬虫开发与项目实战
Python爬虫开发与项目实战(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ 提取码:gtz1 复制这段内容后打开百度 ...
Python爬虫之使用celery加速爬虫
celery是一个基于分布式消息传输的异步任务队列,它专注于实时处理,同时也支持任务调度.关于celery的更多介绍及例子,笔者可以参考文章Python之celery的简介与使用. 本文将介绍 ...

随机推荐

lunix脚本进程挂掉时显示cpu和内存信息及挂掉的时间
#!/bin/shwhile [ true ]; do #查询是否有8899正在运行的进程netstat -an|grep 8899if [ $? -ne 0 ]thennowtime=$(date ...
Iterm2/Mac自带终端工具快速进入你想进入的虚拟机教程
一.首先我们在终端本地要写一个登录的脚本,eg: 当然首先要touch login.sh 啦,下面就是脚本文件,比较low,大神勿喷,会更炫酷写法的小伙伴可以自己参考这个思路写,不会的直接复制就好啦 ...
3星|《绩效使能：超越OKR》：较全较新资料汇编，华为实施经验少
全书是关于绩效管理与OKR的比较新比较全的资料汇编.从泰勒的科学管理说起,一直到现代的KPI.最近的OKR.梳理了工业革命以来重要的绩效管理思想的具体方法.适应情况,详细讲OKR的来龙去脉.适应情况. ...
IDEA zookeeper插件的使用
安装插件 file-settings-Plugins 搜索zookeeper,并安装,安装完成后重启IDEA 配置IP地址和端口位于Other settings 中的zookeeper选项中配置注 ...
修改Android idc文件
安卓系统idc文件里面包含以下几点内容: 1 #=0 外部设备 =1内部设备 2 device.internal = 0 3 #定义:keyboard.layout = <name> 4 ...
SpringBoot基础系列一
SpringBoot基础知识概览特性核心理念:约定优于配置特点: 1. 开箱即用,根据项目依赖自动配置 2. 功能强大的服务体系,如嵌入式服务.安全 3. 绝无代码生成,不用写.xml配置,用注 ...
Hangfire源码解析-如何实现可扩展IOC的？
一.官方描述 These projects simplify the integration between Hangfire and your favorite IoC Container. The ...
perl学习笔记--搭建开发环境
windows下perl开发环境搭建 perl下载地址:http://www.activestate.com/developer-tools 各个插件的安装方法:(通过代理上网的方法) 方法一:pad ...
Linux知识要点大全（第三章）
第三章 Linux基本操作 *主要内容 1:认识root用户 2:Linux下命令的写法 3:Linux关机和重启 4:忘记root密码的处理方法 5. Linux下的目录结构 6. 查看信息 ...
【WebGIS系列】Typescript+WebGL+Webpack开发环境搭建
目前Web实现矢量渲染的主流技术包括SVG.VML和WebGL.相对而言,VML是一种较古老的技术,虽然未成为W3C标准,但被早期的IE浏览器(IE9以下)和微软Office广泛使用,目前已经远离了浏 ...

Python 爬虫 之 阅读呼叫转移（一）

Python 爬虫 之 阅读呼叫转移（一）的更多相关文章

随机推荐

热门专题

Python 爬虫之阅读呼叫转移（一）

Python 爬虫之阅读呼叫转移（一）的更多相关文章