2019-04-23-Python爬取有声小说
Python爬取有声小说
通过python爬取网站的资源,实现批量下载功能:
记录一次自己的学习经历,小白,非专业,难免有不足之处,望读者取其精华!
摘要
功能如下:
1.批量下载
2.批量命名
3.界面化显示
使用工具:
1.pycharm
2.网站为 https://www.qktsw.net/ (如有侵权请联系作者删除)
整体思路:
1.请求网站,根据返回的网站源码,查找包含资源链接的标签
2.请求资源链接,将资源保存的本地,并命名
3.分析包含资源的网页规律(url),循环爬取
4.设计界面,实现自动分析,方便操作
5.(可选项)打包成exe文件,提升移植性
1.获取下载链接
#获取下载链接的方法
def getinfo(url0):
#请求头
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
}
#请求网页数据
req = requests.get(url=url0, headers=headers)
req.encoding = 'gb2312'
html = req.text
# 通过正则查找下载链接
res = re.findall(r"http://(.*).m4a", html)
# 拼合链接
res = 'http://' + res[0]+'.m4a'
#print(res)
return res
2.分析规律,循环爬取
#设置所要下载的起始终止集数
begin = int(begin0)
end = int(end0)
#全局变量 批量命名时的集数
global file_name_num
file_name_num = begin
#正则匹配包含资源链接页的规律 wangzhi为后期界面传过来的网址数据
wangzhi_1 = wangzhi
strinfo = re.compile('-(\d|\d\d|\d\d\d|\d\d\d\d).shtml')
wangzhi_2 = strinfo.sub('-{}.shtml', wangzhi_1)
#https://www.qktsw.net/ting-book-play-3483-1-2.shtml
#根据匹配规则实现循环访问页面 详情页
urls = [wangzhi_2.format(str(i)) for i in range(begin, end+1)]
#'https://www.qktsw.net/ting-book-play-3483-1-{}.shtml'
#https://www.qktsw.net/
print("############开始下载############")
for url in urls:
#设置要保存到的路路径
folderpath = store_path
#通过函数返回下载链接
url_download = getinfo(url)
#开始下载
#调用保存文件函数,实现下载到本地
download_file(url_download, folderpath, file_name_num, file_name)
#休眠1秒 防止访问速度过快
time.sleep(1)
#全部下载完成后输出信息
print("############全部下载完成############")
3.保存到本地,批量命名
#下载文件的方法
def download_file(url,folderpath,num,file_name): #参数中 folderpath 为要保存的文件夹的路径 num 为文件编号
#文件夹不存在则创建文件夹
folder = os.path.exists(folderpath)
if not folder:
os.makedirs(folderpath)
#输出保存信息
print('---正在下载第' + str(num) + '集>>>>>', folderpath+'/'+file_name+'-'+str(num)+'.mp3')
#请求资源链接 读取远程MP3资源
res = requests.get(url)
res.raise_for_status()
#设置保存的文件名
filename = os.path.basename(file_name+'-'+str(num)+'.mp3')
file_path = os.path.join(folderpath, filename)
#保存到本地
mp3_file = open(file_path, 'wb')
for chunk in res.iter_content(chunk_size=1000000):
mp3_file.write(chunk)
mp3_file.close()
#每集下载完成后 输出提示
print(' ***第'+str(num)+'集下载成功')
#修改文件编号 加 1
global file_name_num
file_name_num+=1
4.界面设计
#!/usr/bin/python
# -*- coding: UTF-8 -*-
#界面库使用 tkinter
import tkinter
from tkinter import *
import next #==next文件为1-3中函数保存的位置
root = tkinter.Tk() # 创建窗口对象的背景色
root.title("听书爬虫程序")
root.geometry("450x350")
L1 = Label(root, text="小说名字:(如:****)")
L1.pack( side = TOP)
E1 = Entry(root, bd =1, width='50')
E1.pack(side = TOP)
L2 = Label(root, text="保存路径:(如:D:/****)")
L2.pack( side = TOP)
E2 = Entry(root, bd =1, width='50')
E2.insert(0, "D:/")
E2.pack(side = TOP)
L3 = Label(root, text="小说网址:(如:https://www.qktsw.net/ting-book-play-5264-1-1.shtml)")
L3.pack( side = TOP)
E3 = Entry(root, bd =1, width='50')
E3.pack(side = TOP)
L4 = Label(root, text="起始集数:(如:1)")
L4.pack( side = TOP)
E4 = Entry(root, bd =1, width='50')
E4.pack(side = TOP)
L5 = Label(root, text="终止集数:(如:67)")
L5.pack( side = TOP)
E5 = Entry(root, bd =1, width='50')
E5.pack(side = TOP)
L6 = Label(root,text="作者:***",fg="red")
L6.pack( side = BOTTOM)
#
E7 = Entry(root, bd =1, width='50')
E7.insert(0, 'https://www.qktsw.net/') #在文本框开始位置插入“内容一”
E7.pack(side = BOTTOM)
L7 = Label(root, text="网址备忘:(复制后用浏览器打开)")
L7.pack( side = BOTTOM)
#信息输入完成后 确认键调用的函数
def on():
#获取各个输入框的内用
name = E1.get()
path = E2.get()
wangzhi = E3.get()
begin = E4.get()
end = E5.get()
#传递参数
next.onclick(name,path,wangzhi,begin,end)
B = tkinter.Button(root, text="确认", height="1", command=on, width='50')
B.pack(side=TOP)
root.mainloop() # 进入消息循环
5.效果展示
2019-04-23-Python爬取有声小说的更多相关文章
- python 爬取网络小说 清洗 并下载至txt文件
什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人.其目的一般为编纂网络索引. 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引.网络爬虫可以 ...
- Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...
- 如何用python爬虫从爬取一章小说到爬取全站小说
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
- python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中 我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...
- Python爬虫之利用BeautifulSoup爬取豆瓣小说(一)——设置代理IP
自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况 ...
- Python爬取招聘信息,并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
- 利用python爬取58同城简历数据
利用python爬取58同城简历数据 利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
- python爬取《龙岭迷窟》的数据,看看质量剧情还原度到底怎么样
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:简单 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行 ...
- steam夏日促销悄然开始,用Python爬取排行榜上的游戏打折信息
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 不知不觉,一年一度如火如荼的steam夏日促销悄然开始了.每年通过大大小小 ...
随机推荐
- java - 多态实现机制
Java提供了编译时多态和运行时多态两种多态机制.前者是通过方法重载实现的,后者是通过方法的覆盖实现的. 在方法覆盖中,子类可以覆盖父类的方法,因此同类的方法会在父类与子类中有着不同的表现形式. 在J ...
- Maven国内镜像 Maven阿里云镜像
<mirror> <id>nexus-aliyun</id> <mirrorOf>central</mirrorOf> <name&g ...
- string的学习
原:https://blog.csdn.net/qq_37941471/article/details/82107077 一. string的构造函数的形式: string str:生成空字符串 st ...
- [原创]一款基于Reactor线程模型的java网络爬虫框架
AJSprider 概述 AJSprider是笔者基于Reactor线程模式+Jsoup+HttpClient封装的一款轻量级java多线程网络爬虫框架,简单上手,小白也能玩爬虫, 使用本框架,只需要 ...
- HelloDjango 系列教程:创建 Django 博客的数据库模型
文中涉及的示例代码,已同步更新到 HelloGitHub-Team 仓库 设计博客的数据库表结构 博客最主要的功能就是展示我们写的文章,它需要从某个地方获取博客文章数据才能把文章展示出来,通常来说这个 ...
- 【译】Hello Kubernetes快速交互实验手册
原文:https://kubernetes.io/docs/tutorials 翻译:Edison Zhou 一.基本介绍 此交互实验可以让你不用搭建K8S环境就可以轻松地尝试管理一个简单的容器化应用 ...
- 基于SpringBoot从零构建博客网站 - 集成editor.md开发发布文章功能
发布文章功能里面最重要的就是需要集成富文本编辑器,目前富文本编辑器有很多,例如ueditor,CKEditor.editor.md等.这里守望博客里面是集成的editor.md,因为editor.md ...
- npm 一些有用的提示和技巧
生成 package.json 我们通常执行 npm init,然后开始添加 npm 请求的信息. 但是,如果我们不关心所有这些信息,并且希望保留默认值,那么对于 npm 请求的每一条数据,我们都按 ...
- 算法与数据结构基础 - 双指针(Two Pointers)
双指针基础 双指针(Two Pointers)是面对数组.链表结构的一种处理技巧.这里“指针”是泛指,不但包括通常意义上的指针,还包括索引.迭代器等可用于遍历的游标. 同方向指针 设定两个指针.从头往 ...
- win10 将硬盘工作模式由IDE调整到AHCI模式
第1步:重启进入安全模式 1)点击“开始”按钮 进入设置 2)进入“更新和安全”,“恢复-高级启动”,点击“立即高级启动”, 依次选择“疑难解答”-“高级选项”-“启动设置”-点击“重启” 第2步:进 ...