python 爬取网络小说清洗并下载至txt文件

什么是爬虫

网络爬虫，也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。

爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人只对网站的一部分进行索引，或完全不作处理。

互联网上的页面极多，即使是最大的爬虫系统也无法做出完整的索引。因此在公元2000年之前的万维网出现初期，搜索引擎经常找不到多少相关结果。现在的搜索引擎在这方面已经进步很多，能够即刻给出高质量结果。

爬虫还可以验证超链接和HTML代码，用于网络抓取。

环境：pycharm2017、python3.7

对于初学者来说，爬取小说是最简单的应用，而对于没有任何语法基础的人来说，清晰的逻辑往往比大段的代码更重要。

整个过程分为以下几步：

　　1.确定爬取目标（网页，前段页面）

　　　　首先要明确爬虫的原理，是从网页源代码进行进行数据爬取，本次是以http://www.92kshu.cc/69509/为例，进行小说爬取

　　2.分析代码，进行数据爬取

　　　　主要用到的是python的正则表达式，对想要爬取数据进行选择

title = re.findall(r'<meta property="og:novel:book_name" content="(.*?)"/>',html)[0]
在此语句中，用的是re库，对字符进行筛选，从网页代码中找到独一无二的标志代码段，进行筛选，如果一次不能直接筛选，则可进行多重，比如实例中，先爬取html，然后爬取dl，只是为了爬取对应章节的地址和每一章节的标题。
用re.findall(r'')进行匹配，需匹配的位置用（.*?）代替.

正则表达式表

模式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}	精确匹配 n 个前面表达式。例如， o{2} 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的两个 o。
re{ n,}	匹配 n 个前面表达式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\| b	匹配a或b
(re)	对正则表达式分组并记住匹配的文本
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (...), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#...)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
(?> re)	匹配的独立模式，省去回溯。
\w	匹配字母数字及下划线
\W	匹配非字母数字及下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9].
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。
\z	匹配字符串结束
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等.	匹配一个换行符。匹配一个制表符。等
\1...\9	匹配第n个分组的内容。
\10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

　　3.清洗（用python进行清洗）

　　replace('a','b')，用b替换a，进行初步清洗，也可以用MapReduce进行清洗。

　　4.存入文件

　　fb = open('%s.txt' % title,'w',encoding='utf-8')
　　建立文件，并且该文件为写入状态，其中%s是占位符，也就是用% title 进行替换

　　chapter_url = "http://www.92kshu.cc%s" %chapter_url
　　这段代码为连接字符串，与+相比，%s能够节省内存
　　fb.write（String）就是来写入文件的语句

源代码：

 1 #down web pages

 2

 3 import requests

 4 import re

 5

 6 url = 'http://www.92kshu.cc/69509/'

 7 response = requests.get(url)

 8 response.encoding = 'gbk'

 9 html = response.text

10 title = re.findall(r'<meta property="og:novel:book_name" content="(.*?)"/>',html)[0]

11 fb = open('%s.txt' % title,'w',encoding='utf-8')

12 #获取每章的内容

13 #print(html)

14 dl = re.findall(r'<dl><dt><i class="icon"></i>正文</dt>(.*?)</dl>',html)[0]

15 print(dl)

16 chapter_info_list = re.findall(r'<dd><a href="(.*?)">(.*?)</a></dd>',dl)

17 #print(chapter_info_list)

18 for chapter_info in chapter_info_list:

19     chapter_url,chapter_title = chapter_info

20     chapter_url = "http://www.92kshu.cc%s" %chapter_url

21     #print(chapter_url)

22     chapter_response = requests.get(chapter_url)

23     chapter_response.encoding = 'gbk'

24     chapter_html = chapter_response.text

25     chapter_content = re.findall(r'<div class="chapter">(.*?)><br>',chapter_html)[0]

26     #print(chapter_content)

27     chapter_content = chapter_content.replace('<p>','')

28     chapter_content = chapter_content.replace('</p>','')

29     fb.write(chapter_title)

30     fb.write(chapter_content)

31     fb.write('\n')

32     print(chapter_url)

python 爬取网络小说清洗并下载至txt文件的更多相关文章

python爬取三国演义的所有章节储存到本地文件中
#爬取三国演义的全部章节 2 3 import urllib 4 import urllib.request 5 import urllib.parse 6 from lxml import etre ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
利用Python爬取新浪微博营销案例库并下载到本地
from bs4 import BeautifulSoup import requests,urllib.request,urllib.parse import json import time im ...
python爬取网络中的QQ号码
import urllib.request import ssl import re import os #博客地址:https://blog.csdn.net/qq_36374896 def wri ...
2019-04-23-Python爬取有声小说
目录 Python爬取有声小说摘要 1.获取下载链接 2.分析规律,循环爬取 3.保存到本地,批量命名 4.界面设计 5.效果展示 Python爬取有声小说通过python爬取网站的资源,实现批量 ...
如何用python爬虫从爬取一章小说到爬取全站小说
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
[Python]爬取游民星空网站每周精选壁纸（1080高清壁纸）网络爬虫
一.检查首先进入该网站的https://www.gamersky.com/robots.txt页面给出提示: 弹出错误页面注: 网络爬虫:自动或人工识别robots.txt,再进行内容爬取约束 ...
python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...

随机推荐

硬件delay评估表
硬件delay评估表硬件延时评估表用于快速评估一个模型在特定硬件环境和推理引擎上的推理速度. Bw 主要用于定义PaddleSlim支持的硬件延时评估表的格式. 概述硬件延时评估表中存放着所有可能 ...
微信架构 & 支付架构（下）
微信架构 & 支付架构(下) 3. 管理网络请求首先看看原来 iOS 处理支付网络请求的缺陷: 原来支付的请求,都是通过一个单例网络中心去发起请求,然后收到回包后,通过抛通知,或者调用闭包的 ...
Paddle Inference原生推理库
Paddle Inference原生推理库深度学习一般分为训练和推理两个部分,训练是神经网络"学习"的过程,主要关注如何搜索和求解模型参数,发现训练数据中的规律,生成模型.有了训 ...
MindInsight计算图可视设计
MindInsight计算图可视设计特性背景计算图可视的功能,主要协助开发者在下面这些场景中使用. 开发者在编写深度学习神经网络的代码时,可以使用计算图的功能查看神经网络中算子的数据流走向,以及模 ...
CPU，GPU，GPGPU
CPU,GPU,GPGPU 1．基本概念 1.1 GPU 图形处理器(bai英语:Graphics Processing Unit,缩写:GPU),又称显示核心.视觉du处理器.zhi显示芯片,是一 ...
OpenCV开发实战1——抖音哈哈镜效果
前言在抖音中,我们经常看到各种抖音玩家都喜欢使用哈哈镜效果.那么什么是哈哈镜呢? 在现实生活中,哈哈镜是指一种表面凹凸不平的镜子,可以反应出人像及物体的扭曲面貌.简单点来说就是拉伸人脸(物件),或者 ...
这应该是把Java内存区域讲的最清楚的一篇文章
基本问题: 介绍下 Java 内存区域(运行时数据区) Java 对象的创建过程(五步,建议能默写出来并且要知道每一步虚拟机做了什么) 对象的访问定位的两种方式(句柄和直接指针两种方式) 拓展问题: ...
java并发编程JUC第十二篇：AtomicInteger原子整型
AtomicInteger 类底层存储一个int值,并提供方法对该int值进行原子操作.AtomicInteger 作为java.util.concurrent.atomic包的一部分,从Java 1 ...
jenkins+nexus上传插件发布制品到nexus
nexus安装 nexus安装参考:https://www.cnblogs.com/afei654138148/p/14974124.html nexus配置创建制品库制品库URL:http:// ...
Linux指令手册 (一)
指令格式指令主体 [选项] [操作对象] 一个完整的指令是由"指令主体"."选项"和"操作对象"组成的,其中指令主体只能有一个,选项有零个 ...

python 爬取网络小说 清洗 并下载至txt文件

python 爬取网络小说 清洗 并下载至txt文件的更多相关文章

随机推荐

热门专题

python 爬取网络小说清洗并下载至txt文件

python 爬取网络小说清洗并下载至txt文件的更多相关文章