运行结果：

代码：

 import requests

 from bs4 import BeautifulSoup

 from selenium import webdriver

 import os

 class NovelSpider:

     def __init__(self):

         self.start_url = 'https://www.biqukan.com/1_1680/'

     def get_novel(self):

         response = requests.get(self.start_url)

         soup = BeautifulSoup(response.text, 'html.parser')

         div_chapter = soup.find(class_="listmain")

         chapter_list = div_chapter.find_all('a')

         chapter_list = chapter_list[12:]

         chapter = []

         chapter_num = len(chapter_list)

         count = 0

         print('《凡人修仙传仙界篇》开始下载:')

         for cl in chapter_list:

             chapter_dict = {}

             chapter_name = cl.get_text()

             chapter_dict['name'] = chapter_name

             chapter_url = cl.get('href')

             chapter_dict['value'] = 'https://www.biqukan.com' + chapter_url

             if chapter_dict not in chapter:

                 chapter.append(chapter_dict)

             print(f"已下载:{count}/{chapter_num}")

             self.download_novel(chapter_dict)

             count += 1

     def parse_novel(self, url):

         browser = webdriver.PhantomJS(executable_path=r'F:\Spider\novelSpider\phantomjs.exe')

         browser.get(url)

         soup = BeautifulSoup(browser.page_source, 'html.parser')

         find_txt = soup.find(class_='showtxt')

         # print(type(find_txt.get_text()))

         return find_txt.get_text()

     def download_novel(self, data):

         filename = data['name']

         url = data['value']

         txt = self.parse_novel(url)

         path = r"F:\Spider\novelSpider"

         isExists = os.path.exists(path)

         if not isExists:

             os.mkdir(path)

         else:

             pass

         with open(path + f'\凡人修仙传仙界篇.txt', 'a', encoding='utf-8') as f:

             f.write(f'{filename}\n\n')

             f.write(txt)

             f.write('\n======\n\n')

             f.close()

 if __name__ == '__main__':

     ns = NovelSpider()

     ns.get_novel()

python爬取小说的更多相关文章

用Python爬取小说《一念永恒》
我们首先选定从笔趣看网站爬取这本小说. 然后开始分析网页构造,这些与以前的分析过程大同小异,就不再多叙述了,只需要找到几个关键的标签和user-agent基本上就可以了. 那么下面,我们直接来看代码. ...
python爬取小说详解（一）
整理思路: 首先观察我们要爬取的页面信息.如下: 自此我们获得信息有如下: ♦1.小说名称链接小说内容的一个url,url的形式是:http://www.365haoshu.com/Book/Cha ...
详细记录了python爬取小说《元尊》的整个过程，看了你必会~
学了好几天的渗透测试基础理论,周末了让自己放松一下,最近听说天蚕土豆有一本新小说,叫做<元尊>,学生时代的我可是十分喜欢读天蚕土豆的小说,<斗破苍穹>相信很多小伙伴都看过吧.今 ...
用python爬取小说章节内容
在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 主要是五步: 1. 获取链接 2. 正则匹配 3. 获取内容 4. 处理内容 5. 写入文件代码如下: #导入相关model fro ...
python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...
Python3爬取小说并保存到文件
问题 python课上,老师给同学们布置了一个问题,因为这节课上学的是正则表达式,所以要求利用python爬取小说网的任意小说并保存到文件. 我选的网站的URL是'https://www.biquka ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
python之爬取小说
继上一篇爬取小说一念之间的第一章,这里将进一步展示如何爬取整篇小说 # -*- coding: utf- -*- import urllib.request import bs4 import re ...

随机推荐

Python Poetry 学习和使用
Poetry是啥? 是一个Python虚拟环境和依赖管理工具,另外它还提供了包管理功能,比如打包和发布.可以用来管理python库和python程序. 安装Poetry curl -sSL https ...
java8-计算时间差的方法
一.简述在Java8中,我们可以使用以下类来计算日期时间差异: 1.Period 2.Duration 3.ChronoUnit 二.Period类主要是Period类方法getYears(),g ...
JeeSite | 保存信息修改记录封装
前面写过两篇关于“保存信息修改记录”的内容,分别如下: JeeSite | 保存信息修改记录 JeeSite | 保存信息修改记录续回顾第一篇文章通过类字段的比较返回一个有字段值不 ...
windows下cocos2d-x工程结构讲解
这是我们新建好的工程,稍微解释一下我们开发windows的cocos应用所用到的几个文件夹的作用 Classes文件夹,存放游戏代码中的类的源码,当然我们放在别的地方也可以,只要配置好依赖关系就行了 ...
js随机生成ID
processID = () => { const uuid = 'xxxxxxxx-xxxx-xxxx-yxxx-xxxxxxxxxxxx'.replace(/[xy]/g, function ...
Java实现命令行中的进度条功能
前言最近在写一个命令行中的下载工具,既然是下载文件用的,那么实时显示下载进度是非常有必要的.因此,就有了这里对进度条的实现尝试. 预览图还是先预览下效果图吧. 这里是cmd里面的效果,总体看着还行 ...
innodb存储引擎监控
innodb存储引擎监控分为四种,表监控,表空间监控,锁监控,状态监控.可以在mysql客户端开启监控选项,然后信息将会输出在mysql的错误日志内.innodb_monitor和innodb_loc ...
操作系统|VirtualBox for Mac(虚拟机软件)
VirtualBox是德国一家软件公司InnoTek所开发的虚拟系统软件,它不仅具有丰富的特色,而且性能也很优异,更是开源的,成为了一个发布在GPL许可之下的自由软件.VirtualBox 可以在 L ...
The 2017 ACM-ICPC Asia Shenyang Regional Contest
传送门 F - Heron and His Triangle 直接打表找到规律\(f_i=4f_{i-1}+f_{i-2}\),然后大数预处理一下,对于询问直接输出就行. Code #include ...
纯CSS实现自动轮播，CSS变量的定义与使用，计算属性的使用
先来看一下实现的效果: 实现原理: HTML中使用ul>li存放图片 CSS使用CSS3的animation来完成动画  <section class ...

python爬取小说

运行结果：

代码：

python爬取小说的更多相关文章

随机推荐

热门专题