使用Python爬虫整理小说网资源-自学

第一次接触python，原本C语言的习惯使得我还不是很适应python的语法风格。希望读者能够给出建议。

相关的入门指导来自以下的网址：https://blog.csdn.net/c406495762/article/details/78123502编者的文章很用心，好评。

下面是本次自学的详细说明：

----->确认目标：我选择一个不是很出名的小说网，之所以这么做，是因为一些大网站上一般都有一些反爬虫机制，作为一只弱鸡，还是选个容易上手的小网站。

->穿越小说网->《妖界之门》:http://www.15kxs.com/cbbook_22000/->这是章节汇总

点开第一章：http://www.15kxs.com/cbbook_22000/1.html 对比两个网址再多点开几个网页就很容易发现URL中的规律。但是这里为了更好的熟悉相关代码，我决定进行如下操作：

在章节汇总的网页上提取各个章节的网址并逐一请求，清洗网页源代码得到文章，并将文章汇总到本地的txt文件中。

目标是提取<a>中的“href=”的地址

下面是Python代码

 # -*- coding:UTF-8 -*-

 from bs4 import BeautifulSoup

 import requests

 filename = 'novel.txt'

 if __name__ == "__main__":

     aim = "http://www.15kxs.com/cbbook_22000/"

     cyc = requests.get(aim)

     psd = cyc.text

     cnt = BeautifulSoup(psd,features="html.parser")

     clc = cnt.find_all('a')

     first = 0#在实验过程中发现章节网页中<a>的所有选项中提出的网址不仅仅包括着小说页面，对于其他页面进行筛选

     for haim in clc:

         link = haim.get('href')

         lenth = len(link)

         if first>2 and lenth!=0 and link[0]=='/':

             """拿到了每一个章节的链接尾地址"""

             urlaim="http://www.15kxs.com"+link

             request_get = requests.get(urlaim)

             html = request_get.text

             ctm = BeautifulSoup(html,features="html.parser")

             tex = ctm.find_all('div',id='BookText')

             result = tex[0].text.replace('\xa0','')#编码格式是一个难点，能够打印到屏幕上的字符不一定能写入文件

             with open(filename,'a',encoding='utf-8') as file_object:

                 file_object.write(result)

         first = first+1#用于计算数量

         print(str(first)+" is ok")

     print("all above is ok")

效果如下：

表示效果还可以

唯一不足的是：抽取速度有些慢，5分钟内只能整理110章节左右

使用Python爬虫整理小说网资源-自学的更多相关文章

【收藏】收集的各种Python爬虫、暗网爬虫、豆瓣爬虫、抖音爬虫 Github1万+星
收集的各种Python爬虫.暗网爬虫.豆瓣爬虫 Github 1万+星磁力搜索网站2020/01/07更新 https://www.cnblogs.com/cilisousuo/p/1209954 ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
python爬虫——《瓜子网》的广州二手车市场信息
由于多线程爬取数据比单线程的效率要高,尤其对于爬取数据量大的情况,效果更好,所以这次采用多线程进行爬取.具体代码和流程如下: import math import re from concurrent ...
python 爬虫 scrapy1_官网教程
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
python爬虫爬小说网站涉及到(js加密,CSS加密)
我是对于xxxx小说网进行爬取只讲思路不展示代码请见谅一.涉及到的反爬 js加密 css加密请求头中的User-Agent以及 cookie 二.思路 1.对于js加密对于有js加密信息,我们一 ...
python|爬虫东宫小说
2k小说网爬取最近大火的<东宫>小说,借鉴之前看过的一段代码,修改之后,进行简单爬取. from urllib import requestfrom bs4 import Beautifu ...
利用Python爬虫实现百度网盘自动化添加资源
事情的起因是这样的,由于我想找几部经典电影欣赏欣赏,于是便向某老司机寻求资源(我备注了需要正规视频,绝对不是他想的那种资源),然后他丢给了我一个视频资源网站,说是比较有名的视频资源网站.我信以为真,便 ...
如何丧心病狂的使用python爬虫读小说
写在前边其实一直想入门python很久了,慕课网啊,菜鸟教程啊python的基础的知识被我翻了很多遍了,但是一直没有什么实践.刚好,这两天被别人一直安利一本小说<我可能修的是假仙>,还在 ...
Python爬虫-爬小说
用途用来爬小说网站的小说默认是这本御天邪神,虽然我并没有看小说,但是丝毫不妨碍我用爬虫来爬小说啊. 如果下载不到txt,那不如自己把txt爬下来好了. 功能将小说取回,去除HTML标签记录已爬过 ...

随机推荐

Java集合中removeIf的使用
在JDK1.8中,Collection以及其子类新加入了removeIf方法,作用是按照一定规则过滤集合中的元素.这里给读者展示removeIf的用法.首先设想一个场景,你是公司某个岗位的HR,收到了 ...
.Net Core中IOC容器的使用
打代码之前先说一下几个概念,那就是什么是IOC.DI.DIP 虽然网上讲这些的已经有很多了,我这里还是要再赘述一下 IOC容器就是一个工厂,负责创建对象的 IOC控制反转:只是把上端对下端的依赖,换成 ...
对c语言中static函数的理解
先看看前两篇博客:个人对头文件的理解.对声明和定义的理解. static 函数只在定义该static函数的cpp中可见,在其他cpp中是不可见的. 举个例子,我建立了一个project,该projec ...
Linux中查看日志文件的正确姿势，求你别tail走天下了！
作为一个后端开发工程师,在Linux中查看查看文件内容是基本操作了.尤其是通常要分析日志文件排查问题,那么我们应该如何正确打开日志文件呢?对于笔者这种小菜鸡来说,第一反应就是 cat,tail,vi( ...
《Head first设计模式》之策略模式
策略模式定义了算法族,分别封装起来,让它们之间可以互相替换,此模式让算法的变化独立于使用算法的客户. 假设有一个模拟鸭子的游戏,游戏中会出现各种鸭子,一边游泳戏水,一边呱呱叫.这个游戏的内部设计了一个 ...
研发协同平台持续集成之Jenkins实践
导读研发协同平台有两个核心目标,一是提高研发效率 ,二是提高研发质量,要实现这两个核心目标,实现持续集成是关键之一. 什么是持续集成在<持续集成>一书中,对持续集成的定义如下:持续集成 ...
高可用web架构: LVS+keepalived+nginx+apache+php+eaccelerator（+nfs可选可不选）
LVS(负载均衡器).Heartbeat.Corosync.Pacemaker.Web高可用集群.MySQL高可用集群.DRDB.iscsi.gfs2.cLVM等,唯一没有讲解的就是L ...
Jenkins自动化构建vue项目然后发布到远程Linux服务器
部署Jenkins参照另一篇博客: centos7安装Jenkins及其卸载一.jenkins相关插件的安装 1.安装Publish Over SSH插件用于SSH连接远程的服务器. 登录 jenk ...
进阶之路 | 奇妙的Window之旅
前言本文已经收录到我的Github个人博客,欢迎大佬们光临寒舍: 我的GIthub博客学习清单: Window&WindowManagerService Window&Window ...
Android中Chronometer计时器的简单使用
场景实现效果如下注: 博客: https://blog.csdn.net/badao_liumang_qizhi 关注公众号霸道的程序猿获取编程相关电子书.教程推送与免费下载. 实现将布局改 ...

使用Python爬虫整理小说网资源-自学

使用Python爬虫整理小说网资源-自学的更多相关文章

随机推荐

热门专题