使用Python3爬虫抓取网页来下载小说

很多时候想看小说但是在网页上找不到资源，即使找到了资源也没有提供下载，小说当然是下载下来用手机看才爽快啦！

于是程序员的思维出来了，不能下载我就直接用爬虫把各个章节爬下来，存入一个txt文件中，这样，一部小说就爬下来啦。

这一次我爬的书为《黑客》，一本网络小说，相信很多人都看过吧，看看他的代码吧。

代码见如下：

import re

import urllib.request

import time

#

root = 'http://www.biquge.com.tw/3_3542/'

# 伪造浏览器

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ' \

                         'AppleWebKit/537.36 (KHTML, like Gecko)'

                         ' Chrome/62.0.3202.62 Safari/537.36'}

req = urllib.request.Request(url=root, headers=headers)

with urllib.request.urlopen(req, timeout=1) as response:

    # 大部分的涉及小说的网页都有charset='gbk'，所以使用gbk编码

    htmls = response.read().decode('gbk')

# 匹配所有目录<a href="/3_3542/2020025.html">HK002 上天给了一个做好人的机会</a>

dir_req = re.compile(r'<a href="/3_3542/(\d+?.html)">')

dirs = dir_req.findall(htmls)

# 创建文件流，将各个章节读入内存

with open('黑客.txt', 'w') as f:

    for dir in dirs:

        # 组合链接地址，即各个章节的地址

        url = root + dir

        # 有的时候访问某个网页会一直得不到响应，程序就会卡到那里，我让他0.6秒后自动超时而抛出异常

        while True:

            try:

                request = urllib.request.Request(url=url, headers=headers)

                with urllib.request.urlopen(request, timeout=0.6) as response:

                    html = response.read().decode('gbk')

                    break

            except:

                # 对于抓取到的异常，我让程序停止1.1秒，再循环重新访问这个链接，一旦访问成功，退出循环

                time.sleep(1.1)

        # 匹配文章标题

        title_req = re.compile(r'<h1>(.+?)</h1>')

        # 匹配文章内容，内容中有换行，所以使flags=re.S

        content_req = re.compile(r'<div id="content">(.+?)</div>',re.S,)

        # 拿到标题

        title = title_req.findall(html)[0]

        # 拿到内容

        content_test = content_req.findall(html)[0]

        # 对内容中的html元素杂质进行替换

        strc = content_test.replace('&nbsp;', ' ')

        content = strc.replace('<br />', '\n')

        print('抓取章节>' + title)

        f.write(title + '\n')

        f.write(content + '\n\n')

就这样，一本小说就下载下来啦！！！

运行情况见图：

有的时候服务器会因为大量访问而认为你是个机器人就封了你的IP，可以加个随机数，让程序随机停止不同的时间。

如果下载太慢，可以使用多线程，一起下载多个章节

使用Python3爬虫抓取网页来下载小说的更多相关文章

关于Python3爬虫抓取网页Unicode
import urllib.requestresponse = urllib.request.urlopen('http://www.baidu.com')html = response.read() ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
PHP利用Curl实现多线程抓取网页和下载文件
PHP 利用 Curl 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集数据可以利用 PHPquery ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
python3爬虫爬取网页思路及常见问题（原创）
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
linux中使用wget模拟爬虫抓取网页
如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢,常规的我们肯定是要去下载一个软件下来使用啦,可怜的这两个系统总是找不到相应的工具,这时wget出来帮助你啦!!!wget本身是拿来下载 ...
C# 使用 Abot 实现爬虫抓取网页信息源码下载
下载地址 ** dome **
win7下用python3.3抓取网上图片并下载到本地
这篇文章是看了网上有人写了之后,才去试试看的,但是因为我用的是python3.3,与python2.x有些不同,所以就写了下来,以供参考. get_webJpg.py #coding=utf-8 im ...

随机推荐

电路ppt作业
例二例三 3.例一
Openstack Pycharm 的远程调试
问题背景最近再研究openstack cinder api的时候遇到了个问题:使用命令行调用API的时候,使用domain的token时,会产生一个错误,但是通过cinder的api都无法确定产生错 ...
三方面搞定http协议之“状态码”
当我们向服务器请求数据的时候,服务器会给我们一个反馈,告诉我们对待我们的请求,服务器处理得怎么样了,而这个反馈,是通过数字来传达的,这个数字就叫状态码. 状态码分为以下几种: 1xx:指示信息--表示 ...
spark source code 分析之ApplicationMaster overview（yarn deploy client mode）
一直不是很清楚ApplicationMaster的作用,尤其是在yarn client mode和cluster mode的区别网上有一些非常好的资料,请移步: https://blog.cloud ...
python web开发-flask读取txt文件内容
某些情况下,需要读取flask网站要目录下的txt文件.但是直接在flask网站的目录下创建一个文件是无法访问的.从网站找了一些资料,最终发现通过写一个方法返回txt内容比较简单方便,不过此方法适用于 ...
PHP之取得当前时间函数方法
PHP之取得当前时间函数方法 PHP之取得当前时间函数方法文章提供了php的几种获取当前时间的函数,date,time等,同时告诉我如何解决时区问题.php教程取得当前时间函数文章提供了php的几种获 ...
关于标准ui设计图转换为H5页面的终端适配
一些基本概念在进行具体实战之前,首先得了解下面这些基本概念(术语): 视窗 viewport 简单的理解,viewport是严格等于浏览器的窗口.在桌面浏览器中,viewport就是浏览器窗口的宽度 ...
用three.js创建一个简易的天空盒
本文创建的天空盒是用六张图片来创建的.笔者会论述两种方法来创建,都是最简单基本的方法,不涉及着色器的使用.一种是创建一个盒子,然后将图片作为盒子6个面的纹理贴上来创建.另一种则是简单的将纹理作为场景的 ...
走近webpack（4）--css相关拓展
我们前面已经学了很多webpack基本的处理情况,一句话总结就是,一个优秀的webpack项目,主要的核心用法就是整合loader和plugin去处理你想要的任何需求. 下面,咱们一起来学学如何用we ...
常用Markdown公式整理 && 页内跳转注意 && Markdown preview
目录: 常用Markdown公式及注意事项标题列表链接区块代码块 / 引用粗体和斜体文字块图片表格横线页内跳转注意事项其他重要需注意 Markdown preview 前提: ...

使用Python3爬虫抓取网页来下载小说

使用Python3爬虫抓取网页来下载小说的更多相关文章

随机推荐

热门专题