【python】使用百度api进行音频文件转写
【python】使用百度api进行音频文件转写
脚本目标:
- 智能云的音频文件转写文档只给了个demo,每次只能传1分钟以内的音频啥的,不好直接用,简单打包一下,做到把音频放文件夹,直接出转写结果就行了,偶尔用一下的用户,就我这个用着应该没什么问题
环境准备:
- 百度智能云先开通音频文件转写,创建一个应用,应用名称随便写,描述随便写,接口选择选全选,语音包名不需要,应用创建完后,在应用列表里有个Api Key和Secret Key,复制下来,脚本要用
- 下载ffmpeg,把bin文件夹里的三个exe文件复制到项目文件夹下
脚本思路:
- 创建一个文件夹,让用户把音频放里面,用pydub把音频分割成每段59秒,依次调用音频文件转写的api,把返回结果保存到一起就行了
代码实现:
- 分割音频
代码
def CutAudio(self, path):
format = path[-3:]
filename = path.split("\\")[-1]
filename = re.findall(rf"(.*?)\.{format}", filename) # 取出.mp3后缀的文件名
print(f"文件名={filename[0]}----格式={format}")
mp3 = AudioSegment.from_file(f'{path}', f"{format}") # 打开mp3文件
mp3 = mp3.set_frame_rate(16000)
mp3 = mp3.set_channels(1)
cuts = make_chunks(mp3, self.long)
for index, cut in enumerate(cuts):
CutName = (f"{filename[0]}-{index}.wav")
cut.export(f'{self.TempAudio}/{CutName}', format="wav")
print(f"{filename[0]}分割完成")
最终代码:其实就是把分割音频部分和提供的demo结合到一起
import base64
import json
import os.path
import re
import sys
import time
from os import mkdir, listdir
from shutil import rmtree
from pydub import AudioSegment
from pydub.utils import make_chunks
IS_PY3 = sys.version_info.major == 3
from urllib.request import urlopen
from urllib.request import Request
from urllib.error import URLError
from urllib.parse import urlencode
timer = time.perf_counter
class DemoError(Exception):
pass
class AudioToText:
AudioDir = "./AudioDir"
TempAudio = "./TempAudio"
AudioPath = ""
long = 59000 # 切割的长度
API_KEY = '?????????????'
SECRET_KEY = '??????????????'
AUDIO_FILE = '.....'
FORMAT = AUDIO_FILE[-3:]
RATE = 16000 # 固定值
CUID = '123456PYTHON' # 可填可不填
DEV_PID = 1737 # 1537 表示识别普通话,1737 英文
ASR_URL = 'http://vop.baidu.com/server_api'
SCOPE = 'audio_voice_assistant_get' # 有此scope表示有asr能力,没有请在网页里勾选,非常旧的应用可能没有
TOKEN_URL = 'http://aip.baidubce.com/oauth/2.0/token'
def __init__(self):
if not os.path.exists(self.AudioDir):
mkdir(self.AudioDir)
mkdir(self.TempAudio)
self.AudioPath = input(f"1.单个音频文件:输入音频文件路径\n2.多个音频文件:把音频全放到{self.AudioDir}文件夹里后Enter\n")
language = int(input("普通话选择1 , 英文选择2\n"))
if language == 1:
self.DEV_PID = 1537
elif language == 2:
self.DEV_PID = 1737
def CutAudio(self, path):
format = path[-3:]
filename = path.split("\\")[-1]
filename = re.findall(rf"(.*?)\.{format}", filename) # 取出.mp3后缀的文件名
print(f"文件名={filename[0]}----格式={format}")
mp3 = AudioSegment.from_file(f'{path}', f"{format}") # 打开mp3文件
mp3 = mp3.set_frame_rate(16000)
mp3 = mp3.set_channels(1)
cuts = make_chunks(mp3, self.long)
for index, cut in enumerate(cuts):
CutName = (f"{filename[0]}-{index}.wav")
cut.export(f'{self.TempAudio}/{CutName}', format="wav")
print(f"{filename[0]}分割完成")
def OneAudioFile(self):
self.CutAudio(self.AudioPath)
def ManyAudioFile(self):
for each in listdir(self.AudioDir):
self.CutAudio(f"{self.AudioDir}\\{each}")
def fetch_token(self):
params = {'grant_type': 'client_credentials',
'client_id': self.API_KEY,
'client_secret': self.SECRET_KEY}
post_data = urlencode(params)
if (IS_PY3):
post_data = post_data.encode('utf-8')
req = Request(self.TOKEN_URL, post_data)
try:
f = urlopen(req)
result_str = f.read()
except URLError as err:
result_str = err.read()
if (IS_PY3):
result_str = result_str.decode()
result = json.loads(result_str)
if ('access_token' in result.keys() and 'scope' in result.keys()):
if self.SCOPE and (not self.SCOPE in result['scope'].split(' ')): # SCOPE = False 忽略检查
raise DemoError('scope is not correct')
return result['access_token']
else:
raise DemoError(
'MAYBE API_KEY or SECRET_KEY not correct: access_token or scope not found in token response')
def transfer(self, path):
token = self.fetch_token()
speech_data = []
with open(path, 'rb') as speech_file:
speech_data = speech_file.read()
length = len(speech_data)
if length == 0:
raise DemoError('file %s length read 0 bytes' % path)
speech = base64.b64encode(speech_data)
if (IS_PY3):
speech = str(speech, 'utf-8')
params = {'dev_pid': self.DEV_PID,
# "lm_id" : LM_ID, #测试自训练平台开启此项
'format': path[-3:],
'rate': self.RATE,
'token': token,
'cuid': self.CUID,
'channel': 1,
'speech': speech,
'len': length
}
post_data = json.dumps(params, sort_keys=False)
req = Request(self.ASR_URL, post_data.encode('utf-8'))
req.add_header('Content-Type', 'application/json')
try:
begin = timer()
f = urlopen(req)
result_str = f.read()
except URLError as err:
result_str = err.read()
if (IS_PY3):
result_str = str(result_str, 'utf-8')
result_str = re.findall(r":\[\"(.*?)\"\],", result_str)[0]
print(result_str)
with open("result.txt", "a") as of:
of.write(f"{result_str}\n")
def do_trans(self):
for each in listdir(f"./{self.TempAudio}"):
self.transfer(f"{self.TempAudio}/{each}")
def run(self):
if self.AudioPath is not "":
self.OneAudioFile()
else:
self.ManyAudioFile()
self.do_trans()
def __del__(self):
rmtree(self.TempAudio)
if __name__ == '__main__':
audio = AudioToText()
audio.run()
看到那个一堆问号的Api Key 和 Secret Key了吗,把之前复制下来的粘贴上去
把没安装的库自己安装一下,ffmpeg里的三个exe要记得复制到项目文件夹
然后直接跑就行了
后记:
其实就是方便大家,可以直接用这个功能,可以不用浪费时间再写一遍
【python】使用百度api进行音频文件转写的更多相关文章
- python使用百度api翻译中英文
python使用百度api翻译中英文 写程序取变量名的时候,常常需要翻译单词,或者将中文翻译成英语.有道词典,必应词典都很好,可是...命令行习惯了还是觉得用在cmd里面调出程序使用起来也许会更爽.于 ...
- 吴裕雄--天生自然python学习笔记:python 用pygame模块处理音频文件
除了对图片. Word 等普通格式的文件进行处理外, Python 还有强大的多媒体文件操作能力,如对音频.视频 文件的操作 . 如果要播放音乐,我们可以用 pygame 包中的 mixer 对 象. ...
- 爬虫-python调用百度API/requests
from urllib.request import urlopen import requests import json url = "http://apis.baidu.com/txa ...
- Python调用百度接口(情感倾向分析)和讯飞接口(语音识别、关键词提取)处理音频文件
本示例的过程是: 1. 音频转文本 2. 利用文本获取情感倾向分析结果 3. 利用文本获取关键词提取 首先是讯飞的语音识别模块.在这里可以找到非实时语音转写的相关文档以及 Python 示例.我略作了 ...
- 百度ai 基于node 语音识别 音频文件类型转换
百度ai 基于node 语音识别 音频文件类型转换 项目简介 源代码移步:https://github.com/xuess/ai-baidu-node 本项目主要功能为,本地音频语音识别和文件类型转换 ...
- Python 调用百度翻译API
由于实习公司这边做的是日文app,有时要看看用户反馈,对于我这种五十音图都没记住的人,表示百度翻译确实还可以.但不想每次都复制粘贴啊,google被墙也是挺蛋疼的事,所以用python结合baidu ...
- ArcGIS API for Silverlight 当DataGrid选中项时,地图聚焦弹出窗口,并可以播放音频文件
原文:ArcGIS API for Silverlight 当DataGrid选中项时,地图聚焦弹出窗口,并可以播放音频文件 先看效果图,然后上代码: <UserControl x:Class= ...
- Python获得百度统计API的数据并发送邮件
Python获得百度统计API的数据并发送邮件 小工具 本来这么晚是不准备写博客的,当是想到了那个狗子绝对会在开学的时候跟我逼逼这个事情,所以,还是老老实实地写一下吧. Baidu统计API的使 ...
- Python实例---爬取下载喜马拉雅音频文件
PyCharm下python爬虫准备 打开pycharm 点击设置 点击项目解释器,再点击右边+号 搜索相关库并添加,例如:requests 喜马拉雅全网递归下载 打开谷歌/火狐浏览器,按F12打开开 ...
- Python开发【Tornado】:搭建文件下载服务、音频文件播放
Tornado 如何做文件下载 要求:浏览器输入url地址,直接弹窗提示下载 Tornado服务端,搭建文件下载服务 #!/usr/bin/env python # -*- coding:utf-8 ...
随机推荐
- Win32汇编:数组与标志位测试总结
整理复习汇编语言的知识点,以前在学习<Intel汇编语言程序设计 - 第五版>时没有很认真的整理笔记,主要因为当时是以学习理解为目的没有整理的很详细,这次是我第三次阅读此书,每一次阅读都会 ...
- Linux的信号管理 [补档-2023-07-30]
信号 11-1简介: 信号只是表示某个信号,不可以携带大量信息,信号需要满足特点的条件才会产生.是一种特别的通信手 段. 11-2 信号机制: 假设有两个进程A,B,现在进程A给进程B发送信号 ...
- InnoDB存储引擎的行级锁
InnoDB存储引擎的行级锁 InnoDB存储引擎和MyISAM的其中有两个很重要的区别:一个是事务,一个就是锁机制不同.事务之前有介绍,有问题的去补课;锁方面的不同是InnoDB引擎既有表锁又有行锁 ...
- Android 相册
- Delphi原子操作函数介绍
一.Delphi的原子操作函数 在System.SyncObjs单元中,有一个TInterlocked的密封类,其十多个类函数(class function)其实都是调用的System单元的原子操作函 ...
- Linux服务器查看端口是否开启或占用
一.查看端口是否启用 (1)lsof -i :8080 查看8080端口被哪个进程占用 (2)netstat -lnp|grep 8080 查看8080端口被哪个进程占用 (3)ss -nlap | ...
- Apache Hudi 设计与架构解读
1. 简介 Apache Hudi(简称:Hudi)允许您在现有的hadoop兼容存储之上存储大量数据,同时提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理. 这两种原语分别是: 1 ...
- 程序员减少BUG的两个小妙招!
原创:陶朱公Boy(微信公众号ID:taozhugongboy),欢迎分享,转载请保留出处. 点评: 我们说衡量一个程序员水平的高低往往有很多因素,但有一个因素至关重要即代码质量. 如果程序员写的 ...
- JS Leetcode 503. 下一个更大元素 II 题解分析,依旧单调栈做法解决此题
壹 ❀ 引 我在JS Leetcode 496. 下一个更大元素 I 更清晰的图解单调栈做法一文中,介绍了单调栈做法解决下一个更大元素的问题,比较巧的是这道题还有升级版,题目来自Leetcode503 ...
- NC15434 wyh的迷宫
题目链接 题目 题目描述 给你一个n*m的迷宫,这个迷宫中有以下几个标识: s代表起点 t代表终点 x代表障碍物 .代表空地 现在你们涵哥想知道能不能从起点走到终点不碰到障碍物(只能上下左右进行移动, ...