Python 爬虫-抓取小说《鬼吹灯之精绝古城》

想看小说《鬼吹灯之精绝古城》，可是网页版的好多广告，还要一页一页的翻，还无法复制，于是写了个小爬虫，保存到word里慢慢看。

代码如下：

"""

爬取《鬼吹灯之精绝古城》小说

"""

from selenium import webdriver

import os

from docx import Document

class DownloadFiles():

    def __init__(self):

        self.baseUrl = 'http://www.luoxia.com/guichui/'

        self.basePath = os.path.dirname(__file__)

    def makedir(self, name):

        path = os.path.join(self.basePath, name)

        isExist = os.path.exists(path)

        if not isExist:

            os.makedirs(path)

            print('File has been created.')

        else:

            print('The file is existed.')

        # 切换到该目录下

        os.chdir(path)

    def connect(self, url):

        try:

            driver = webdriver.PhantomJS()

            driver.get(url)

            print(url)

        except:

            "This page is not existed."

        return driver

    def getContent(self):

        doc = Document()

        self.makedir('storyFiles')

        for page in range(27426, 27461):

            print('The page number is : ' + str(page))

            url = self.baseUrl + str(page) + '.htm'

            driver = self.connect(url)

            rList = driver.find_elements_by_xpath('//article/p')

            for r in rList:

                print(r.text)

                doc.add_paragraph(r.text)

        doc.save('guichuideng.doc')

if __name__ == '__main__':

    obj = DownloadFiles()

    obj.getContent()

Python 爬虫-抓取小说《鬼吹灯之精绝古城》的更多相关文章

Python 爬虫-抓取小说《盗墓笔记-怒海潜沙》
最近想看盗墓笔记,看了一下网页代码,竟然不是js防爬虫,那就用简单的代码爬下了一节: """ 爬取盗墓笔记小说-七星鲁王宫 """ from ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
C# 爬虫抓取小说
心血来潮,想研究下爬虫,爬点小说. 通过百度选择了个小说网站,随便找了一本小书http://www.23us.so/files/article/html/13/13655/index.html. 1. ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
Python爬虫 -- 抓取电影天堂8分以上电影
看了几天的python语法,还是应该写个东西练练手.刚好假期里面看电影,找不到很好的影片,于是有个想法,何不搞个爬虫把电影天堂里面8分以上的电影爬出来.做完花了两三个小时,撸了这么一个程序.反正蛮简单 ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...

随机推荐

深入理解Magento - 第五章 Magento资源配置
对于任何一个更新频繁的项目来说,保持开发环境和生产环境的数据库同步是件很头疼的事情.Magento提供了一套系统,用版本化的资源迁移脚本来解决这个问题. 上一章,我们为 Helloworld Blog ...
【Nacos】本地集群部署
关于Nacos已经展开了四篇入门文章: 初探Nacos(一)-- 单机模式启动初探Nacos(二)-- SpringCloud使用Nacos的服务注册与发现初探Nacos(三)-- SpringB ...
搭建hadoop集群单机版
二.在Ubuntu下创建hadoop用户组和用户这里考虑的是以后涉及到hadoop应用时,专门用该用户操作.用户组名和用户名都设为:hadoop.可以理解为该hadoop用户是属于一 ...
Delphi多线程详解
(整理自网络) Delphi多线程处理 1-1多线程的基本概念 WIN 98/NT/2000/XP 是个多任务操作系统,也就是:一个进程可以划分为多个线程,每个线程轮流占用CPU 运行时间和资源,或者 ...
Sleepy与DbgHlp库学习
参考:http://msdn.microsoft.com/en-us/library/windows/desktop/ms679291(v=vs.85).aspx http://msdn.micros ...
PAT_A1048#Find Coins
Source: PAT A1048 Find Coins (25 分) Description: Eva loves to collect coins from all over the univer ...
node 创建静态web服务器（上）
声明:本文仅用来做学习记录. 本文将使用node创建一个简单的静态web服务器. 准备工作: 首先,准备好一个类似图片中这样的页面第一步: 创建 http 服务: const http = requ ...
【二】Jmeter接口自动化测试系列之函数使用及扩展
上一篇文章我们了解了Jmeter的参数化的集中方法,虽然方法不是很多,但已经足够使用! 本篇文章,介绍一下Jmeter自带函数的使用和函数扩展,来满足测试工作中的各种需求! Jmeter自带函数点 ...
linux 创建用户并限制其访问目录
1.创建用户及访问目录 useradd test1 -d /usr/share/webapps/test -M 设置密码 passwd test1 将访问目录权限全部赋予用户 chown -R te ...
Java类与类的关系、继承与多态、重写与重载
Java类与类的关系 (1)is-a包括了继承,实现关系 (2)has-a包括了关联,聚合,组合关系 (3)use-a包括了依赖关系实现关系: 实现指的是一个class类实现interface ...

Python 爬虫-抓取小说《鬼吹灯之精绝古城》

Python 爬虫-抓取小说《鬼吹灯之精绝古城》的更多相关文章

随机推荐

热门专题