【python】使用百度api进行音频文件转写

【python】使用百度api进行音频文件转写

脚本目标：

智能云的音频文件转写文档只给了个demo，每次只能传1分钟以内的音频啥的，不好直接用，简单打包一下，做到把音频放文件夹，直接出转写结果就行了，偶尔用一下的用户，就我这个用着应该没什么问题

环境准备：

百度智能云先开通音频文件转写，创建一个应用，应用名称随便写，描述随便写，接口选择选全选，语音包名不需要，应用创建完后，在应用列表里有个Api Key和Secret Key，复制下来，脚本要用
下载ffmpeg，把bin文件夹里的三个exe文件复制到项目文件夹下

脚本思路：

创建一个文件夹，让用户把音频放里面，用pydub把音频分割成每段59秒，依次调用音频文件转写的api，把返回结果保存到一起就行了

代码实现：

分割音频

代码

    def CutAudio(self, path):

        format = path[-3:]

        filename = path.split("\\")[-1]

        filename = re.findall(rf"(.*?)\.{format}", filename)  # 取出.mp3后缀的文件名

        print(f"文件名={filename[0]}----格式={format}")

        mp3 = AudioSegment.from_file(f'{path}', f"{format}")  # 打开mp3文件

        mp3 = mp3.set_frame_rate(16000)

        mp3 = mp3.set_channels(1)

        cuts = make_chunks(mp3, self.long)

        for index, cut in enumerate(cuts):

            CutName = (f"{filename[0]}-{index}.wav")

            cut.export(f'{self.TempAudio}/{CutName}', format="wav")

        print(f"{filename[0]}分割完成")

最终代码：其实就是把分割音频部分和提供的demo结合到一起

import base64

import json

import os.path

import re

import sys

import time

from os import mkdir, listdir

from shutil import rmtree

from pydub import AudioSegment

from pydub.utils import make_chunks

IS_PY3 = sys.version_info.major == 3

from urllib.request import urlopen

from urllib.request import Request

from urllib.error import URLError

from urllib.parse import urlencode

timer = time.perf_counter

class DemoError(Exception):

    pass

class AudioToText:

    AudioDir = "./AudioDir"

    TempAudio = "./TempAudio"

    AudioPath = ""

    long = 59000  # 切割的长度

    API_KEY = '？？？？？？？？？？？？？'

    SECRET_KEY = '？？？？？？？？？？？？？？'

    AUDIO_FILE = '.....'

    FORMAT = AUDIO_FILE[-3:]

    RATE = 16000  # 固定值

    CUID = '123456PYTHON'  # 可填可不填

    DEV_PID = 1737  # 1537 表示识别普通话，1737 英文

    ASR_URL = 'http://vop.baidu.com/server_api'

    SCOPE = 'audio_voice_assistant_get'  # 有此scope表示有asr能力，没有请在网页里勾选，非常旧的应用可能没有

    TOKEN_URL = 'http://aip.baidubce.com/oauth/2.0/token'

    def __init__(self):

        if not os.path.exists(self.AudioDir):

            mkdir(self.AudioDir)

        mkdir(self.TempAudio)

        self.AudioPath = input(f"1.单个音频文件：输入音频文件路径\n2.多个音频文件:把音频全放到{self.AudioDir}文件夹里后Enter\n")

        language = int(input("普通话选择1 , 英文选择2\n"))

        if language == 1:

            self.DEV_PID = 1537

        elif language == 2:

            self.DEV_PID = 1737

    def CutAudio(self, path):

        format = path[-3:]

        filename = path.split("\\")[-1]

        filename = re.findall(rf"(.*?)\.{format}", filename)  # 取出.mp3后缀的文件名

        print(f"文件名={filename[0]}----格式={format}")

        mp3 = AudioSegment.from_file(f'{path}', f"{format}")  # 打开mp3文件

        mp3 = mp3.set_frame_rate(16000)

        mp3 = mp3.set_channels(1)

        cuts = make_chunks(mp3, self.long)

        for index, cut in enumerate(cuts):

            CutName = (f"{filename[0]}-{index}.wav")

            cut.export(f'{self.TempAudio}/{CutName}', format="wav")

        print(f"{filename[0]}分割完成")

    def OneAudioFile(self):

        self.CutAudio(self.AudioPath)

    def ManyAudioFile(self):

        for each in listdir(self.AudioDir):

            self.CutAudio(f"{self.AudioDir}\\{each}")

    def fetch_token(self):

        params = {'grant_type': 'client_credentials',

                  'client_id': self.API_KEY,

                  'client_secret': self.SECRET_KEY}

        post_data = urlencode(params)

        if (IS_PY3):

            post_data = post_data.encode('utf-8')

        req = Request(self.TOKEN_URL, post_data)

        try:

            f = urlopen(req)

            result_str = f.read()

        except URLError as err:

            result_str = err.read()

        if (IS_PY3):

            result_str = result_str.decode()

        result = json.loads(result_str)

        if ('access_token' in result.keys() and 'scope' in result.keys()):

            if self.SCOPE and (not self.SCOPE in result['scope'].split(' ')):  # SCOPE = False 忽略检查

                raise DemoError('scope is not correct')

            return result['access_token']

        else:

            raise DemoError(

                'MAYBE API_KEY or SECRET_KEY not correct: access_token or scope not found in token response')

    def transfer(self, path):

        token = self.fetch_token()

        speech_data = []

        with open(path, 'rb') as speech_file:

            speech_data = speech_file.read()

        length = len(speech_data)

        if length == 0:

            raise DemoError('file %s length read 0 bytes' % path)

        speech = base64.b64encode(speech_data)

        if (IS_PY3):

            speech = str(speech, 'utf-8')

        params = {'dev_pid': self.DEV_PID,

                  # "lm_id" : LM_ID,    #测试自训练平台开启此项

                  'format': path[-3:],

                  'rate': self.RATE,

                  'token': token,

                  'cuid': self.CUID,

                  'channel': 1,

                  'speech': speech,

                  'len': length

                  }

        post_data = json.dumps(params, sort_keys=False)

        req = Request(self.ASR_URL, post_data.encode('utf-8'))

        req.add_header('Content-Type', 'application/json')

        try:

            begin = timer()

            f = urlopen(req)

            result_str = f.read()

        except URLError as err:

            result_str = err.read()

        if (IS_PY3):

            result_str = str(result_str, 'utf-8')

        result_str = re.findall(r":\[\"(.*?)\"\],", result_str)[0]

        print(result_str)

        with open("result.txt", "a") as of:

            of.write(f"{result_str}\n")

    def do_trans(self):

        for each in listdir(f"./{self.TempAudio}"):

            self.transfer(f"{self.TempAudio}/{each}")

    def run(self):

        if self.AudioPath is not "":

            self.OneAudioFile()

        else:

            self.ManyAudioFile()

        self.do_trans()

    def __del__(self):

        rmtree(self.TempAudio)

if __name__ == '__main__':

    audio = AudioToText()

    audio.run()

看到那个一堆问号的Api Key 和 Secret Key了吗，把之前复制下来的粘贴上去

把没安装的库自己安装一下，ffmpeg里的三个exe要记得复制到项目文件夹

然后直接跑就行了

后记：

其实就是方便大家，可以直接用这个功能，可以不用浪费时间再写一遍

【python】使用百度api进行音频文件转写的更多相关文章

python使用百度api翻译中英文
python使用百度api翻译中英文写程序取变量名的时候,常常需要翻译单词,或者将中文翻译成英语.有道词典,必应词典都很好,可是...命令行习惯了还是觉得用在cmd里面调出程序使用起来也许会更爽.于 ...
吴裕雄--天生自然python学习笔记：python 用pygame模块处理音频文件
除了对图片. Word 等普通格式的文件进行处理外, Python 还有强大的多媒体文件操作能力,如对音频.视频文件的操作 . 如果要播放音乐,我们可以用 pygame 包中的 mixer 对象. ...
爬虫－python调用百度API／requests
from urllib.request import urlopen import requests import json url = "http://apis.baidu.com/txa ...
Python调用百度接口（情感倾向分析）和讯飞接口（语音识别、关键词提取）处理音频文件
本示例的过程是: 1. 音频转文本 2. 利用文本获取情感倾向分析结果 3. 利用文本获取关键词提取首先是讯飞的语音识别模块.在这里可以找到非实时语音转写的相关文档以及 Python 示例.我略作了 ...
百度ai 基于node 语音识别音频文件类型转换
百度ai 基于node 语音识别音频文件类型转换项目简介源代码移步:https://github.com/xuess/ai-baidu-node 本项目主要功能为,本地音频语音识别和文件类型转换 ...
Python 调用百度翻译API
由于实习公司这边做的是日文app,有时要看看用户反馈,对于我这种五十音图都没记住的人,表示百度翻译确实还可以.但不想每次都复制粘贴啊,google被墙也是挺蛋疼的事,所以用python结合baidu ...
ArcGIS API for Silverlight 当DataGrid选中项时，地图聚焦弹出窗口，并可以播放音频文件
原文:ArcGIS API for Silverlight 当DataGrid选中项时,地图聚焦弹出窗口,并可以播放音频文件先看效果图,然后上代码: <UserControl x:Class= ...
Python获得百度统计API的数据并发送邮件
Python获得百度统计API的数据并发送邮件小工具本来这么晚是不准备写博客的,当是想到了那个狗子绝对会在开学的时候跟我逼逼这个事情,所以,还是老老实实地写一下吧. Baidu统计API的使 ...
Python实例---爬取下载喜马拉雅音频文件
PyCharm下python爬虫准备打开pycharm 点击设置点击项目解释器,再点击右边+号搜索相关库并添加,例如:requests 喜马拉雅全网递归下载打开谷歌/火狐浏览器,按F12打开开 ...
Python开发【Tornado】：搭建文件下载服务、音频文件播放
Tornado 如何做文件下载要求:浏览器输入url地址,直接弹窗提示下载 Tornado服务端,搭建文件下载服务 #!/usr/bin/env python # -*- coding:utf-8 ...

随机推荐

3.1 C++ STL 双向队列容器
双向队列容器(Deque)是C++ STL中的一种数据结构,是一种双端队列,允许在容器的两端进行快速插入和删除操作,可以看作是一种动态数组的扩展,支持随机访问,同时提供了高效的在队列头尾插入和删除元素 ...
LyScriptTools 扩展Script类API手册
纯脚本类的功能实现都是调用的x64dbg命令,目前由于run_command_exec()命令无法返回参数,故通过中转eax寄存器实现了取值,目前只能取出整数类型的参数. 插件地址:https://g ...
Metasploit 生成带SSL加密载荷
1.下载证书.Impersonate_SSL模块,下载指定网站的证书. msf6> use auxiliary/gather/impersonate_ssl msf6 auxiliary(gat ...
Java实现将中缀表达式转换到后缀表达式
思路: 1.初始化两个栈运算符栈 s1 和储存中间结果栈 s22. 从左到右扫描中缀表达式3. 遇到操作数时压入s24. 遇到操作符 o1 时比较其与 S1 栈顶运算符的优先级 1)如果s1为空 ...
Gitee一个仓库存储多个项目
需求: 平时会做一些小项目,有时候一个小项目就几行代码,十几K的项目,给这些小项目建一个库保存太奢侈了太浪费了,所以换个思路,根据项目类型来创建库,然后每个小项目以孤立分支的方式存到该库中,这 ...
ESET防病毒软件 v16.2.11.0 - 安全
上次编写了笔者自己的防护软件的博文:我的电脑防护安全软件 ,今天把ESET防病毒软件的套装的下载地址发出来,让广大的朋友能够免费使用到这个软件. 链接:https://pan.baidu.com/s/ ...
ElasticSearch7.3学习(三十三)----kibana之Grok Dubugger
在ElasticSearch7.3学习(三十二)----logstash三大插件(input.filter.output)及其综合示例中学到logstash使用filter插件进行数据清洗,grok是 ...
Java注解支持的类型
我们经常会自定义注解,自定义注解时,可能会需要定义各种数据类型,但是自定义注解可以包含哪些数据类型,是存在限制的. 主要有如下几种: A primitive type : 基本类型(java的八种基本 ...
MYSQL 3 DAY
目录 MySQL day03 1.约束 1.1.唯一性约束(unique) 1.2.主键约束 1.3.外键约束 2.存储引擎?(整个内容属于了解内容) 2.1.完整的建表语句 2.2.什么是存储引擎呢 ...
NC20909 游戏
题目链接题目题目描述有 n 个人围成一个环玩传球游戏,每轮游戏手里拿着球的那个人必须将球传给他(她)的一个朋友.游戏一共进行了 m 轮,初始球在第 a 个人手中,问游戏结束后球在第 b 个人手中 ...

【python】使用百度api进行音频文件转写

【python】使用百度api进行音频文件转写的更多相关文章

随机推荐

热门专题