Python爬取有声小说

Python爬取有声小说

通过python爬取网站的资源，实现批量下载功能：

记录一次自己的学习经历，小白，非专业，难免有不足之处，望读者取其精华！

摘要

功能如下：

1.批量下载

2.批量命名

3.界面化显示

使用工具：

1.pycharm

2.网站为 https://www.qktsw.net/ （如有侵权请联系作者删除）

整体思路：

1.请求网站，根据返回的网站源码，查找包含资源链接的标签

2.请求资源链接，将资源保存的本地，并命名

3.分析包含资源的网页规律(url)，循环爬取

4.设计界面，实现自动分析，方便操作

5.(可选项)打包成exe文件，提升移植性

1.获取下载链接

#获取下载链接的方法

def getinfo(url0):

    #请求头

    headers = {

        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"

    }

    #请求网页数据

    req = requests.get(url=url0, headers=headers)

    req.encoding = 'gb2312'

    html = req.text

    # 通过正则查找下载链接

    res = re.findall(r"http://(.*).m4a", html)

    # 拼合链接

    res = 'http://' + res[0]+'.m4a'

    #print(res)

    return res

2.分析规律，循环爬取

	#设置所要下载的起始终止集数

    begin = int(begin0)

    end = int(end0)

	#全局变量 批量命名时的集数

    global file_name_num

    file_name_num = begin

    #正则匹配包含资源链接页的规律  wangzhi为后期界面传过来的网址数据

    wangzhi_1 = wangzhi

    strinfo = re.compile('-(\d|\d\d|\d\d\d|\d\d\d\d).shtml')

    wangzhi_2 = strinfo.sub('-{}.shtml', wangzhi_1)

    #https://www.qktsw.net/ting-book-play-3483-1-2.shtml

	#根据匹配规则实现循环访问页面  详情页

    urls = [wangzhi_2.format(str(i)) for i in range(begin, end+1)]

    #'https://www.qktsw.net/ting-book-play-3483-1-{}.shtml'

    #https://www.qktsw.net/

    print("############开始下载############")

    for url in urls:

    #设置要保存到的路路径

        folderpath = store_path

    #通过函数返回下载链接

        url_download = getinfo(url)

    #开始下载

        #调用保存文件函数，实现下载到本地

        download_file(url_download, folderpath, file_name_num, file_name)

		#休眠1秒  防止访问速度过快

        time.sleep(1)

	#全部下载完成后输出信息

    print("############全部下载完成############")

3.保存到本地，批量命名

#下载文件的方法

def download_file(url,folderpath,num,file_name):     #参数中 folderpath 为要保存的文件夹的路径    num 为文件编号

    #文件夹不存在则创建文件夹

    folder = os.path.exists(folderpath)

    if not folder:

        os.makedirs(folderpath)

	#输出保存信息

    print('---正在下载第' + str(num) + '集>>>>>', folderpath+'/'+file_name+'-'+str(num)+'.mp3')

    #请求资源链接 读取远程MP3资源

    res = requests.get(url)

    res.raise_for_status()

    #设置保存的文件名

    filename = os.path.basename(file_name+'-'+str(num)+'.mp3')

    file_path = os.path.join(folderpath, filename)

    #保存到本地

    mp3_file = open(file_path, 'wb')

    for chunk in res.iter_content(chunk_size=1000000):

        mp3_file.write(chunk)

    mp3_file.close()

    #每集下载完成后 输出提示

    print('  ***第'+str(num)+'集下载成功')

    #修改文件编号  加 1

    global file_name_num

    file_name_num+=1

4.界面设计

#!/usr/bin/python

# -*- coding: UTF-8 -*-

#界面库使用 tkinter

import tkinter

from tkinter import *

import next  #==next文件为1-3中函数保存的位置

root = tkinter.Tk()  # 创建窗口对象的背景色

root.title("听书爬虫程序")

root.geometry("450x350")

L1 = Label(root, text="小说名字：(如：****)")

L1.pack( side = TOP)

E1 = Entry(root, bd =1, width='50')

E1.pack(side = TOP)

L2 = Label(root, text="保存路径：(如：D:/****)")

L2.pack( side = TOP)

E2 = Entry(root, bd =1, width='50')

E2.insert(0, "D:/")

E2.pack(side = TOP)

L3 = Label(root, text="小说网址：(如：https://www.qktsw.net/ting-book-play-5264-1-1.shtml)")

L3.pack( side = TOP)

E3 = Entry(root, bd =1, width='50')

E3.pack(side = TOP)

L4 = Label(root, text="起始集数：(如：1)")

L4.pack( side = TOP)

E4 = Entry(root, bd =1, width='50')

E4.pack(side = TOP)

L5 = Label(root, text="终止集数：(如:67)")

L5.pack( side = TOP)

E5 = Entry(root, bd =1, width='50')

E5.pack(side = TOP)

L6 = Label(root,text="作者：***",fg="red")

L6.pack( side = BOTTOM)

#

E7 = Entry(root, bd =1, width='50')

E7.insert(0, 'https://www.qktsw.net/')  #在文本框开始位置插入“内容一”

E7.pack(side = BOTTOM)

L7 = Label(root, text="网址备忘：(复制后用浏览器打开)")

L7.pack( side = BOTTOM)

#信息输入完成后 确认键调用的函数

def on():

	#获取各个输入框的内用

    name = E1.get()

    path = E2.get()

    wangzhi = E3.get()

    begin = E4.get()

    end = E5.get()

	#传递参数

    next.onclick(name,path,wangzhi,begin,end)

B = tkinter.Button(root, text="确认", height="1", command=on, width='50')

B.pack(side=TOP)

root.mainloop()  # 进入消息循环

5.效果展示

2019-04-23-Python爬取有声小说的更多相关文章

python 爬取网络小说清洗并下载至txt文件
什么是爬虫网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人.其目的一般为编纂网络索引. 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引.网络爬虫可以 ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
如何用python爬虫从爬取一章小说到爬取全站小说
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（一）——设置代理IP
自己写了一个爬虫爬取豆瓣小说,后来为了应对请求不到数据,增加了请求的头部信息headers,为了应对豆瓣服务器的反爬虫机制:防止请求频率过快而造成“403 forbidden”,乃至封禁本机ip的情况 ...
Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
python爬取《龙岭迷窟》的数据，看看质量剧情还原度到底怎么样
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:简单 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行 ...
steam夏日促销悄然开始，用Python爬取排行榜上的游戏打折信息
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 不知不觉,一年一度如火如荼的steam夏日促销悄然开始了.每年通过大大小小 ...

随机推荐

ProcessBuilder waitFor 调用外部应用
小程序项目最初使用ffmpeg转换微信录音文件为wav格式,再交给阿里云asr识别成文字.视频音频转换最常用是ffmpeg. 1 ffmpeg -i a.mp3 b.wav 相关文章: 小程序实现语音 ...
windows server 2008 R2中建立ftp站点
在windows server 2008 R2中建立ftp站点,要遵循以下步骤: (1) 开启IIS中的ftp服务: (2) 在IIS中建立ftp站点. 具体过程如下: (1) 开启IIS中的ftp服 ...
php 获取未来七天的日期和星期
php获取未来七天的日期和星期代码 for($i=4;$i<8;$i++){ $dateArray[$i]=date('Y-m-d',strtotime(date('Y-m- ...
jenkins部署自动化项目备注
一.定时任务部署: 第一个*表示分钟,取值0~59 第二个*表示小时,取值0~23 第三个*表示一个月的第几天,取值1~31 第四个*表示第几月,取值1~12 第五个*表示一周中的第几天,取值0~7, ...
Spark 系列（七）—— 基于 ZooKeeper 搭建 Spark 高可用集群
一.集群规划这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务.同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop0 ...
hadoop学习(五)----HDFS的java操作
前面我们基本学习了HDFS的原理,hadoop环境的搭建,下面开始正式的实践,语言以java为主.这一节来看一下HDFS的java操作. 1 环境准备上一篇说了windows下搭建hadoop环境, ...
mongoDB的CRUD的总结
今天开始接触非关系型数据库的mongoDB,现在将自己做的笔记发出来,供大家参考,也便于自己以后忘记了可以查看. 首先,mongoDB,是一种数据库,但是又区别与mysql,sqlserver.orc ...
DT-06 For Homekit
一. 配置DT-06上网连接此热点,会自动弹出wifi配置页面. 输入选中的路由密码,点 Join加入,如果路由没有出现在列表中,点 Other手工输入(仅支持2.4g路由配置) 二.配置dt-06 ...
【POJ - 2139】Six Degrees of Cowvin Bacon （Floyd算法求最短路）
Six Degrees of Cowvin Bacon Descriptions 数学课上,WNJXYK忽然发现人缘也是可以被量化的,我们用一个人到其他所有人的平均距离来量化计算. 在这里定义人与人的 ...
重读《学习JavaScript数据结构与算法-第三版》- 第3章数组（一）
定场诗大将生来胆气豪,腰横秋水雁翎刀. 风吹鼍鼓山河动,电闪旌旗日月高. 天上麒麟原有种,穴中蝼蚁岂能逃. 太平待诏归来日,朕与先生解战袍. 此处应该有掌声... 前言读<学习JavaScr ...

2019-04-23-Python爬取有声小说

Python爬取有声小说

摘要

1.获取下载链接

2.分析规律，循环爬取

3.保存到本地，批量命名

4.界面设计

5.效果展示

2019-04-23-Python爬取有声小说的更多相关文章

随机推荐

热门专题