香港电台的节目素质都比较不错，其中有个《中华五千年》的节目是以情景剧与旁白的形式来展示历史故事，由传说时代一直到民国，1983年首播至2000年，非常长寿的一个节目。网上能找到版本声音非常模糊，不过在其《网上中华五千年》的网站上可以在线收听所有节目。虽然可以在线听，但要science上网，而且在线听中断了就不能再续着听，很难受。因此，就想到利用Python来的爬虫来把节目都下载下来慢慢听。

分析Html页面

　　在浏览器打开审查元素找到音频的链接标签，发现链接都在class为.listen-button的a标签里。只要定位到这个标签，取出text作为文件名，href作为下载url就可以了。

代码实现

　　代码很简单，首先，主体结构是这样的：

'''

    下载中华五千年

'''

from bs4 import BeautifulSoup

import requests,urllib,re

import time

import aiohttp

import asyncio

import os

async def main():

    start_page = 1

    while True:

        url = 'http://rthk9.rthk.hk/chiculture/fivethousandyears/subpage{0}.htm'.format(start_page)

        soup = await getUrl(url)      #取html内容

        if not soup.title: return   #直到无内容退出

        title = soup.title.text

        title = title[title.rfind(' ')+1:]

        listenbutton = soup.select(".listen-button") #查出所有.listen-button类的标签

        #根据title 创建相应的文件夹

        rootPath = './中华五千年/'

        if not os.path.exists(rootPath + title):

            os.makedirs(rootPath + title)

        for l in listenbutton:

            if  l.text != "":

                href = l['href']

                filename  = str(title) +'_' + str(l.text)

                if filename.find('公元') > -1

                    await download(filename=filename,url=href,title=title)  #下载语音

        start_page += 1 #下一页

asyncio.run(main())

其中异步函数（协程）getUrl :

async def getUrl(url):

    async with aiohttp.ClientSession() as session:

        #因需science上网所以需要本地代理

        async with session.get(url,proxy='http://127.0.0.1:1080') as resp:

            wb_data = await resp.text()

            soup = BeautifulSoup(wb_data,'lxml')

    return soup

异步下载语音函数 download：

async def download(url,filename,title):

    file_name = './中华五千年/{0}/{1}'.format(title,filename + '.mp3')

    async with aiohttp.ClientSession() as session:

        async with session.get(url,proxy='http://127.0.0.1:1080') as resp:

            with open(file_name, 'wb') as fd:

                while True:

                    chunk = await resp.content.read()

                    if not chunk:

                        break

                    fd.write(chunk)

由于用了异步IO的方式，很快便可以下载完一页。

BeautifulSoup与aiohttp的简单应用-爬取《网上中华五千年》音频的更多相关文章

Python超简单的爬取网站中图片
1.首先导入相关库 import requests import bs4 import threading #用于多线程爬虫,爬取速度快,可以完成多页爬取 import os 2.使用bs4获取htm ...
使用webmagic爬虫对百度百科进行简单的爬取
分析要爬取的网页源码: 1.打开要分析的网页,查看源代码,找到要爬取的内容: (选择网页里的一部分右击审查元素也行) 2.导入jar包,这个就直接去网上下吧: 3.写爬虫: package com.g ...
web scraper——简单的爬取数据【二】
web scraper——安装[一] 在上文中我们已经安装好了web scraper现在我们来进行简单的爬取,就来爬取百度的实时热点吧. http://top.baidu.com/buzz?b=1&a ...
Python爬取网上车市[http://www.cheshi.com/]的数据
#coding:utf8 #爬取网上车市[http://www.cheshi.com/]的数据 import requests, json, time, re, os, sys, time,urlli ...
【Python数据分析】简单爬虫爬取知乎神回复
看知乎的时候发现了一个 “如何正确地吐槽” 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到 ...
12月4日学习爬虫007.使用Urllib模块进行简单网页爬取
笔记如下: 1.https是http加强版协议(安全协议)http(普通网络通信协议) 爬数据如果爬https发现和理想中的数据不同,可以改为http 直接去掉s即可 2.使用Urllib爬取简单网 ...
【Python】简单实现爬取小说《天龙八部》，并在页面本地访问
背景很多人说学习爬虫是提升自己的一个非常好的方法,所以有了第一次使用爬虫,水平有限,依葫芦画瓢,主要作为学习的记录. 思路使用python的requests模块获取页面信息通过re模块(正则表达 ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
Python爬虫之简单的爬取百度贴吧数据
首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包之后我们定义一个名叫BaiduSpider类用来爬取信息属性有 url: ...

随机推荐

继续(3n+1)猜想 (25)
#include <algorithm> #include <iostream> using namespace std; int main(){ ] = { }; ], nu ...
HDU 2828 Lamp 二分图的最大匹配模型题
http://acm.hdu.edu.cn/showproblem.php?pid=2828 给定n个灯,m个开关,使得每栈灯亮,前提是控制这栈灯的开关的状态是其中一个.(题目应该都看得懂) 其实我想 ...
angularjs之ng-mode获取lobject类型里的键值
有时候数据库定义的时候,用一个对象来代表某个属性,之后直接访问对象就可以获取全部该对象的属性,但是有时需求访问对象中包含中的键值,引用键值的时候可以直接用.来获取对象的键值,比如对象points: ...
spring mvc支持跨域请求
@WebFilter(urlPatterns = "/*", filterName = "corsFilter") public class CorsFilte ...
JS通过使用PDFJS实现基于文件流的预览功能
需求: 使用JS实现PDF文件预览功能备选方案: 使用ViewerJS,官网 http://viewerjs.org/ 使用PDFJS,官网 https://mozilla.github.io/ ...
XML基本概念及增删改查操作
一.概念及特征: 1. XML 指可扩展标记语言(Extensible Markup Language),用户可以自己定义标签.XML 被设计用来传输和存储数据,而 HTML 用于格式化并显示数据,并 ...
codevs 1316 文化之旅 2012年NOIP全国联赛普及组
时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题目描述 Description 有一位使者要游历各国,他每到一个国家,都能学到一种文化,但他不愿意学习任何一种文 ...
51nod 1267 4个数和为0
基准时间限制:1 秒空间限制:131072 KB 分值: 20 难度:3级算法题给出N个整数,你来判断一下是否能够选出4个数,他们的和为0,可以则输出"Yes",否则输出&qu ...
Hyperledger(超级账本)的worldstate和SAP CRM的CRMD_CUMULAT_H
Hyperledger fabric是基于区块链技术的一个开源项目,由Linux基金会于2015年发起,目的是推进区块链数字技术和交易验证的发展和落地. Hyperledger由多个区块构成了一个有序 ...
Android（java）学习笔记184：多媒体之 MediaPlayer使用
MediaPlayer类可用于控制音频/视频文件或流的播放.关于如何使用这个类的方法还可以阅读VideoView类的文档. 1．MediaPlayer 状态图对播放音频/视频文件和流的控 ...

BeautifulSoup与aiohttp的简单应用-爬取《网上中华五千年》音频

分析Html页面

代码实现

BeautifulSoup与aiohttp的简单应用-爬取《网上中华五千年》音频的更多相关文章

随机推荐

热门专题