Python 百度语音识别与合成REST API及ffmpeg使用

操作系统：Windows
Python：3.5
欢迎加入学习交流QQ群：657341423

注意事项：接口支持 POST 和 GET两种方式，个人支持用post模式，因为get的话，如果get数据太长，会出现缺失的。
语音识别要求支持的语音格式
原始 PCM 的录音参数必须符合 8k/16k 采样率、16bit 位深、单声道，支持的压缩格式有：pcm（不压缩）、wav、opus、amr、x-flac。
简单说，语音参数必需要 8k/16k 采样率、16bit 位深、单声道，不然会出现内容和文字不相符的情况。

网上这类教程基本上都是Python urllib2实现的，这里我使用requests实现。

import requests

import json

import base64

import wave

from pydub import AudioSegment ###需要安装pydub、ffmpeg

import io

class BaiduRest:

    def __init__(self, cu_id, api_key, api_secert):

        # token认证的url

        self.token_url = "https://openapi.baidu.com/oauth/2.0/token"

        # 语音合成的resturl

        self.getvoice_url = "http://tsn.baidu.com/text2audio"

        # 语音识别的resturl

        self.upvoice_url = 'http://vop.baidu.com/server_api'

        self.cu_id = cu_id

        self.getToken(api_key, api_secert)

        return

    def getToken(self, api_key, api_secert):

        # 1.获取token

        data={'grant_type':'client_credentials','client_id':api_key,'client_secret':api_secert}

        r=requests.post(self.token_url,data=data)

        Token=json.loads(r.text)

        self.token_str = Token['access_token']

    def getVoice(self, text, filename):

        # 2. 向Rest接口提交数据

        data={'tex':text,'lan':'zh','cuid':self.cu_id,'ctp':1,'tok':self.token_str}

        r=requests.post(self.getvoice_url,data=data,stream=True)

        voice_fp = open(filename,'wb')

        voice_fp.write(r.raw.read())

        # for chunk in r.iter_content(chunk_size=1024):

            # voice_fp.write(chunk)

        voice_fp.close()

    def getText(self, filename):

        # 2. 向Rest接口提交数据

        data = {"format":"wav","rate":16000, "channel":1,"token":self.token_str,"cuid":self.cu_id,"lan":"zh"}

        # 语音的一些参数

        wav_fp = open(filename,'rb')

        voice_data = wav_fp.read()

        data['len'] = len(voice_data)

        data['speech'] = base64.b64encode(voice_data).decode('utf-8')

        post_data = json.dumps(data)

        r=requests.post(self.upvoice_url,data=bytes(post_data,encoding="utf-8"))

        # 3.处理返回数据

        return r.text

    def ConvertToWav(self,filename,wavfilename):

        #先从本地获取mp3的bytestring作为数据样本

        fp=open("out.mp3",'rb')

        data=fp.read()

        fp.close()

        #主要部分

        aud=io.BytesIO(data)

        sound=AudioSegment.from_file(aud,format='mp3')

        raw_data = sound._data

        #写入到文件，验证结果是否正确。

        l=len(raw_data)

        f=wave.open(wavfilename,'wb')

        f.setnchannels(1)

        f.setsampwidth(2)

        f.setframerate(16000)

        f.setnframes(l)

        f.writeframes(raw_data)

        f.close()

        return wavfilename

if __name__ == "__main__":

    #api_key和api_secert 自行编写

    api_key = ""

    api_secert = ""

    # 初始化

    bdr = BaiduRest("test_python", api_key, api_secert)

    # 将字符串语音合成并保存为out.mp3

    bdr.getVoice("问题,作为开发人员,你的职责是什么,答按照工作进度和编程工作规范编写系统中的关键模块,设计编写详细设计,配合测试员修改相应的程序,提供软件的后期技术支持,进行编码实现,代码走查,单元测试,产品交付,", "out.mp3")

    # 识别test.wav语音内容并显示

    print(bdr.getText(bdr.ConvertToWav("out.mp3","test.wav")))

运行结果：

设计思想：这里先将语音合成，生成MP3格式，然后将这段语音转换wav格式。然后再去语音识别。
在实际开发中，可以通过录音，得到一段音频文件，然后再转换wav格式。再去识别即可。
这里涉及到pydub 的安装。直接pip install pydub安装即可。
ffmpeg安装可以参考：ffmpeg安装
ffmpeg下载一定是static

总结：基本上都是调用百度的api接口就完成语音的识别和合成，但是值得注意的语音识别的要求和条件，就算得到wav格式，建议都转换一下格式。不然识别上会与内容不同。

原文地址：http://blog.csdn.net/HuangZhang_123/article/details/72819145

Python 百度语音识别与合成REST API及ffmpeg使用的更多相关文章

python +百度语音识别+图灵对话
https://github.com/Dongvdong/python_Smartvoice 上电后,只要周围声音超过 2000,开始录音5S 录音上传百度识别,并返回结果文字输出继续等待,周围声音 ...
基于百度语音识别API的Python语音识别小程序
一.功能概述实现语音为文字,可以扩展到多种场景进行工作,这里只实现其基本的语言接收及转换功能. 在语言录入时,根据语言内容的多少与停顿时间,自动截取音频进行转换. 工作示例: 二.软件环境操作系统 ...
python录音并调用百度语音识别接口
#!/usr/bin/env python import requests import json import base64 import pyaudio import wave import os ...
[python]百度语音rest api
百度语音识别提供的api范例只有java, c, php. 如果使用Python, 需要注意: 语音文件长度是指bytes大小可以通过len(file.read())获得使用requests.po ...
C# 10分钟完成百度语音技术（语音识别与合成）——入门篇
我们已经讲了人脸识别(入门+进阶).图片识别(入门).下面是链接: C# 10分钟完成百度人脸识别——入门篇 C# 30分钟完成百度人脸识别——进阶篇(文末附源码) C# 10分钟完成百度图片提取文字 ...
百度语音识别REST API——通过使用Http网络请求方式获得语音识别功能
百度语音识别通过REST API的方式给开发人员提供一个通用的HTTP接口,基于该接口,开发人员能够轻松的获取语音识别能力,本文档描写叙述了使用语音识别服务REST API的方法. 长处: 较之开发人 ...
python调用百度语音识别接口实时识别
1.本文直接上干货奉献代码:https://github.com/wuzaipei/audio_discern/tree/master/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5% ...
百度语音识别API初探
近期想做个东西把大段对话转成文字.用语音输入法太慢,所以想到看有没有现成的API,网上一搜,基本就是百度和讯飞. 这里先看百度的笔者使用的是Java版本号的下载地址:http://bos.nj.b ...
百度语音识别REST API用法（含JAVA代码）——不须要集成SDK的方法
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/zpf8861/article/details/32329457 上一篇文章http://blog.c ...

随机推荐

应当将指针变量用“==”或“！=”与 NULL 比较
应当将指针变量用“==”或“!=”与 NULL 比较. 指针变量的零值是“空”(记为 NULL). 尽管 NULL 的值与 0 相同,但是两者意义不同. 假设指针变量的名字为 p,它与零值比较的标准 ...
web 开发之酷炫--- 酷炫展示
http://www.cnblogs.com/dsxniubility/p/4588560.html
转载：15个最受欢迎的Python开源框架
出自:http://python.jobbole.com/72306/?replytocom=57112 15个最受欢迎的Python开源框架 Django: Python Web应用开发框架 Dja ...
【Java面试题】51 什么时候用assert。
assertion(断言)在软件开发中是一种常用的调试方式,很多开发语言中都支持这种机制. 在实现中,assertion就是在程序中的一条语句,它对一个boolean表达式进行检查,一个正确程序必须保 ...
Linux(Ubuntu)下搭建ASP.NET Core环境
今天来学习一下ASP.NET Core 运行在Ubuntu中.无需安装mono . 环境 Ubuntu 14.04.4 LTS 服务器版全新安装系统. 下载地址:http://mirrors.neu ...
javaScript实现归并排序
归并排序是一个O(nlogn)的算法,其基本思想就是一个分治的策略,先进行划分,然后再进行合并,下面举个例子.有这样一组数据: {5,4,1,22,12,32,45,21} 如果对它进行归并排序的话, ...
使用Visual Studio将C#生成DLL文件的方法
1.命令方式打开Visual Studio安装目录下的开发人员命令提示译 File.cs 以产生 File.exe csc File.cs 编译 File.cs 以产生 File.dll csc ...
插入数据insert语句中出错：没有与这些操作数匹配的“+”运算符，操作数类型为：const char[ ]+CString
UpdateData(); CString n; n.Format(L"%d", m_n); _bstr_t strCmd_n = "insert into n(材料,折 ...
使用鼠标监听器，使鼠标悬停在JTable某行时背景色改变
一.需要知道的事实: 1.当鼠标悬停在JTable上时,相应的格子(cell)的渲染器(TableCellRenderer)的渲染方法(getTableCellRenererComponent)会被调 ...
Windows网络编程Internet Gopher了解下
Gopher:中文译“地鼠”,是迪士尼卡通人物之一(谷佛). 英文原义:The Internet Gopher Protocol 中文释义:(RFC-1436)网际Gopher协议该系统是在明尼苏达 ...

Python 百度语音识别与合成REST API及ffmpeg使用

Python 百度语音识别与合成REST API及ffmpeg使用的更多相关文章

随机推荐

热门专题