python 爬虫下载英语听力新闻(npr news)为mp3格式

想通过听实时新闻来提高英语听力，学了那么多年的英语，不能落下啊，不然白费背了那么多年的单词。

npr news是美国国家公共电台，发音纯正，音频每日更新，以美国为主，世界新闻为辅，比如最近我国武汉发生的新型冠状病毒肺炎，每天都有涉及China,Wuhan，Coronavirus等词。

自己动手丰衣足食，以前在网上下载的各种音频都是几年前的新闻，听着感觉没多大意思，主要是没有切身了解当时的情况。

废话不多说，直接上代码：

__author__ = "jayson"

import requests
import re
from multiprocessing import Pool
import time
import traceback
import sys
import os
import eyed3

def download_mp3(audios, music_index, headers, already_downloads):
    try:
        date = audios[2]  # 文件前添加日期，便于排序
        music_name = date + '_' + audios[0] + '.mp3'
        music_url = audios[1]

        if music_name in already_downloads:  # 避免被重复下载
            print(f'{music_index}已存在，跳过下载')
            pass
        else:
            try:
                print(f'{music_index}下载中...')
                flag = 1  # 设置下载成功标志
                music_rt = requests.get(music_url, headers=headers)
                music_rt = music_rt.content  # 以bytes形式接收（接收后，以二进制写入文件即下载文件。也可以通过decode来转码变换为str），.text是以str形式接收
                with open(f'.//downloads//{music_name}', 'wb') as f:
                    f.write(music_rt)
            except:
                flag = 0
                print(f'{music_index}需要重新下载，或翻墙下载！')  # 偶尔会存在 需要重新下载或者翻墙下载的链接，跳过，存下url
                with open('download_error_urls.txt', 'a') as f:
                    write_str = music_name + ":" + music_url + '\n'
                    f.write(write_str)
                pass
            if flag:  # 如果下载成功，就修改音频标签
                audiofile = eyed3.load(f'.//downloads//{music_name}')  # 读取文件
                audiofile.initTag()  # 删除所有标签信息
                audiofile.tag.artist = u"JaysonTeng"  # 参与创作的艺术家
                audiofile.tag.album = u"NPR NEWS"  # 唱片集
                audiofile.tag.album_artist = u"NPR"  # 唱片艺术家
                audiofile.tag.title = u"%s" % (music_name)  # 标题
                audiofile.tag.track_num = 6  # 音轨编号，专辑内歌曲编号："#"
                audiofile.tag.save()  # 保存修改标签的文件

                print(f'{music_index}下载完成！')

    except:  # 捕获异常，写入文件
        error_info = sys.exc_info()
        with open('download_error.txt', 'a') as f:
            f.write(music_name + '，' + time.strftime("%Y-%m-%d %H:%M:%S") + '：\n')
            print(error_info[0], '：', error_info[1], '\n', file=f)
            traceback.print_tb(error_info[2], file=f)
            f.write('\n' + '=' * 50 + '\n')

if __name__ == '__main__':
    url = 'https://www.npr.org/proxy/listening/v2/recommendations?channel=cleplayer'  # 每日更新音频的链接（40个左右链接），早上和晚上八九点左右更新最多，其他时间会更新少量
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'
    }
    rt = requests.get(url, headers=headers)
    rt =rt.text
    audio_orurls = re.findall('title":"(.*?)","audioTitle.*?"date":"(.*?)T.*?audio\\\\\/mp3","href":"(.*?mp3)\?', rt, re.S)  # 获取音频下载链接、标题、日期
    audio_urls = []
    for mus_ora in audio_orurls:
        title = mus_ora[0].replace('\/', ' ').encode('utf-8').decode('unicode_escape').replace('\\', '').replace(':', '：').replace('?', '？').replace('<', '《').replace('>', '》').replace('*', ' ').replace('\"', '\'').replace('|', ' ')  # 处理不规范的字符，windows文件名不支持部分特殊字符
        title = title[:-3] + title[-3:].replace(' ', '').replace('.', '')
        date = mus_ora[1].replace('-', '')
        url = mus_ora[2].replace('\\', '')
        audio_urls.append([title, url, date])
    already_downloads = os.listdir('.//downloads')

    pool = Pool(6)  # 采用多进程进行下载（注意windows系统 jupyter里面不能用多进程），若不想用多进程，可以直接调用download_mp3函数即可
    for music_index, audios in enumerate(audio_urls):
        pool.apply_async(download_mp3, (audios, music_index, headers, already_downloads))
        time.sleep(0.5)  # 各个进程之间有个时间差，避免一个ip同时访问多个连接失败
    pool.close()
    pool.join()

python 爬虫下载英语听力新闻(npr news)为mp3格式的更多相关文章

python爬虫下载文件
python爬虫下载文件下载东西和访问网页差不多,这里以下载我以前做的一个安卓小游戏为例地址为:http://hjwachhy.site/game/only_v1.1.1.apk 首先下载到内存 ...
Python爬虫下载Bilibili番剧弹幕
本文绍如何利用python爬虫下载bilibili番剧弹幕. 准备: python3环境需要安装BeautifulSoup,selenium包 phantomjs 原理: 通过aid下载bilibi ...
Python爬虫：新浪新闻详情页的数据抓取（函数版）
上一篇文章<Python爬虫:抓取新浪新闻数据>详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数, ...
Python爬虫下载美女图片（不同网站不同方法）
声明:以下代码,Python版本3.6完美运行一.思路介绍不同的图片网站设有不同的反爬虫机制,根据具体网站采取对应的方法 1. 浏览器浏览分析地址变化规律 2. Python测试类获取网页内容,从 ...
Python爬虫下载酷狗音乐
目录 1.Python下载酷狗音乐 1.1.前期准备 1.2.分析 1.2.1.第一步 1.2.2.第二步 1.2.3.第三步 1.2.4.第四步 1.3.代码实现 1.4.运行结果 1.Python ...
python爬虫-采集英语翻译
http://fanyi.baidu.com/?aldtype=85#en/zh/drughttp://fanyi.baidu.com/?aldtype=85#en/zh/cathttp://fa ...
Python爬虫：获取新浪网新闻
代码 #coding:utf-8 import requests from bs4 import BeautifulSoup res = requests.get("http://news. ...
python 爬虫下载图片
import os#导入操作系统模块from urllib.request import urlretrieve#下载url对应的文件from urllib.request import urlope ...
python 爬虫--下载图片,下载音乐
#下载图片 imgUrl='http://www.pptbz.com/pptpic/UploadFiles_6909/201211/2012111719294197.jpg' r=requests.g ...

随机推荐

在excel表格里，为所有数字添上绿色小三角
在excel表格里,为所有数字添上绿色小三角的方法有4种: 1. 为一个单元格添加:直接在单元格里添加一个英文的逗号 2. 为一列数据添加:选中要添加绿色小三角的列,选择数据-->分列--&g ...
python --- 日志模块 logging
1.日志的使用 import logging class CommonLog(object): def _common_log(self,level,message): # 设定收集器,再设定收集的级 ...
Golang的运算符优先级实操案例
Golang的运算符优先级实操案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.运算符优先级案例运算符是用来在程序运行时执行数学或逻辑运算的,在Go语言中,一个表达式可以包 ...
UVA - 679 Dropping Balls（二叉树的编号）
题意:二叉树按层次遍历从1开始标号,所有叶子结点深度相同,每个结点开关初始状态皆为关闭,小球从根结点开始下落(小球落在结点开关上会使结点开关状态改变),若结点开关关闭,则小球往左走,否则往右走,给定二 ...
编写程序，实现在带头结点的单链表L中删除一个最小值节点的算法。
算法复杂度0(n) #!/usr/bin/env python3 class LNode(object): def __init__(self, elem, next_=None): self.ele ...
mysql基本知识的总结
Mysql基本sql知识 Navicat快捷方式: 选中当前行在行尾:shift+home 在行首:shift+end 执行当前行:ctrl+shift+R 复制当前行:ctrl+D 显示所有数据库 ...
《学习R》笔记：科学计算器、检查变量和工作区、向量、矩阵和数组、列表和数据框
一.第二章科学计算器要检查两个数字是否一样,要使用 all.equal() ,不要使用 == ,== 符号仅用于比较两个整型数是否存在相同 . > all.equal(sqrt(2)^2,2 ...
opencv python运动人体检测
采用非极大值抑制,将重叠的框合并成一个. # import the necessary packages from imutils.object_detection import non_max_su ...
css 基础知识 (待完善...)
CSS 1.position 属性对元素进行定位. absolute 相对于非static类型的position 的第一个(临近的) 父元素进行定位. ...
Mac使用安卓模拟器-网易MuMu
先看下效果图近期,因为小编把安卓手机倒手了,但现在还想看看一些安卓应用.所以就搜罗了很多市场上的模拟器. 最终选定了网易的MuMu,总体感觉网易也是花了很大的心思,整体效果超赞. 下载地址网易Mu ...

python 爬虫下载英语听力新闻(npr news)为mp3格式

python 爬虫下载英语听力新闻(npr news)为mp3格式的更多相关文章

随机推荐

热门专题