Python 百度语音识别与合成REST API及ffmpeg使用

操作系统：Windows
Python：3.5
欢迎加入学习交流QQ群：657341423

注意事项：接口支持 POST 和 GET两种方式，个人支持用post模式，因为get的话，如果get数据太长，会出现缺失的。
语音识别要求支持的语音格式
原始 PCM 的录音参数必须符合 8k/16k 采样率、16bit 位深、单声道，支持的压缩格式有：pcm（不压缩）、wav、opus、amr、x-flac。
简单说，语音参数必需要 8k/16k 采样率、16bit 位深、单声道，不然会出现内容和文字不相符的情况。

网上这类教程基本上都是Python urllib2实现的，这里我使用requests实现。

import requests

import json

import base64

import wave

from pydub import AudioSegment ###需要安装pydub、ffmpeg

import io

class BaiduRest:

    def __init__(self, cu_id, api_key, api_secert):

        # token认证的url

        self.token_url = "https://openapi.baidu.com/oauth/2.0/token"

        # 语音合成的resturl

        self.getvoice_url = "http://tsn.baidu.com/text2audio"

        # 语音识别的resturl

        self.upvoice_url = 'http://vop.baidu.com/server_api'

        self.cu_id = cu_id

        self.getToken(api_key, api_secert)

        return

    def getToken(self, api_key, api_secert):

        # 1.获取token

        data={'grant_type':'client_credentials','client_id':api_key,'client_secret':api_secert}

        r=requests.post(self.token_url,data=data)

        Token=json.loads(r.text)

        self.token_str = Token['access_token']

    def getVoice(self, text, filename):

        # 2. 向Rest接口提交数据

        data={'tex':text,'lan':'zh','cuid':self.cu_id,'ctp':1,'tok':self.token_str}

        r=requests.post(self.getvoice_url,data=data,stream=True)

        voice_fp = open(filename,'wb')

        voice_fp.write(r.raw.read())

        # for chunk in r.iter_content(chunk_size=1024):

            # voice_fp.write(chunk)

        voice_fp.close()

    def getText(self, filename):

        # 2. 向Rest接口提交数据

        data = {"format":"wav","rate":16000, "channel":1,"token":self.token_str,"cuid":self.cu_id,"lan":"zh"}

        # 语音的一些参数

        wav_fp = open(filename,'rb')

        voice_data = wav_fp.read()

        data['len'] = len(voice_data)

        data['speech'] = base64.b64encode(voice_data).decode('utf-8')

        post_data = json.dumps(data)

        r=requests.post(self.upvoice_url,data=bytes(post_data,encoding="utf-8"))

        # 3.处理返回数据

        return r.text

    def ConvertToWav(self,filename,wavfilename):

        #先从本地获取mp3的bytestring作为数据样本

        fp=open("out.mp3",'rb')

        data=fp.read()

        fp.close()

        #主要部分

        aud=io.BytesIO(data)

        sound=AudioSegment.from_file(aud,format='mp3')

        raw_data = sound._data

        #写入到文件，验证结果是否正确。

        l=len(raw_data)

        f=wave.open(wavfilename,'wb')

        f.setnchannels(1)

        f.setsampwidth(2)

        f.setframerate(16000)

        f.setnframes(l)

        f.writeframes(raw_data)

        f.close()

        return wavfilename

if __name__ == "__main__":

    #api_key和api_secert 自行编写

    api_key = ""

    api_secert = ""

    # 初始化

    bdr = BaiduRest("test_python", api_key, api_secert)

    # 将字符串语音合成并保存为out.mp3

    bdr.getVoice("问题,作为开发人员,你的职责是什么,答按照工作进度和编程工作规范编写系统中的关键模块,设计编写详细设计,配合测试员修改相应的程序,提供软件的后期技术支持,进行编码实现,代码走查,单元测试,产品交付,", "out.mp3")

    # 识别test.wav语音内容并显示

    print(bdr.getText(bdr.ConvertToWav("out.mp3","test.wav")))

运行结果：

设计思想：这里先将语音合成，生成MP3格式，然后将这段语音转换wav格式。然后再去语音识别。
在实际开发中，可以通过录音，得到一段音频文件，然后再转换wav格式。再去识别即可。
这里涉及到pydub 的安装。直接pip install pydub安装即可。
ffmpeg安装可以参考：ffmpeg安装
ffmpeg下载一定是static

总结：基本上都是调用百度的api接口就完成语音的识别和合成，但是值得注意的语音识别的要求和条件，就算得到wav格式，建议都转换一下格式。不然识别上会与内容不同。

原文地址：http://blog.csdn.net/HuangZhang_123/article/details/72819145

Python 百度语音识别与合成REST API及ffmpeg使用的更多相关文章

python +百度语音识别+图灵对话
https://github.com/Dongvdong/python_Smartvoice 上电后,只要周围声音超过 2000,开始录音5S 录音上传百度识别,并返回结果文字输出继续等待,周围声音 ...
基于百度语音识别API的Python语音识别小程序
一.功能概述实现语音为文字,可以扩展到多种场景进行工作,这里只实现其基本的语言接收及转换功能. 在语言录入时,根据语言内容的多少与停顿时间,自动截取音频进行转换. 工作示例: 二.软件环境操作系统 ...
python录音并调用百度语音识别接口
#!/usr/bin/env python import requests import json import base64 import pyaudio import wave import os ...
[python]百度语音rest api
百度语音识别提供的api范例只有java, c, php. 如果使用Python, 需要注意: 语音文件长度是指bytes大小可以通过len(file.read())获得使用requests.po ...
C# 10分钟完成百度语音技术（语音识别与合成）——入门篇
我们已经讲了人脸识别(入门+进阶).图片识别(入门).下面是链接: C# 10分钟完成百度人脸识别——入门篇 C# 30分钟完成百度人脸识别——进阶篇(文末附源码) C# 10分钟完成百度图片提取文字 ...
百度语音识别REST API——通过使用Http网络请求方式获得语音识别功能
百度语音识别通过REST API的方式给开发人员提供一个通用的HTTP接口,基于该接口,开发人员能够轻松的获取语音识别能力,本文档描写叙述了使用语音识别服务REST API的方法. 长处: 较之开发人 ...
python调用百度语音识别接口实时识别
1.本文直接上干货奉献代码:https://github.com/wuzaipei/audio_discern/tree/master/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5% ...
百度语音识别API初探
近期想做个东西把大段对话转成文字.用语音输入法太慢,所以想到看有没有现成的API,网上一搜,基本就是百度和讯飞. 这里先看百度的笔者使用的是Java版本号的下载地址:http://bos.nj.b ...
百度语音识别REST API用法（含JAVA代码）——不须要集成SDK的方法
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/zpf8861/article/details/32329457 上一篇文章http://blog.c ...

随机推荐

第三百一十七节，Django框架，缓存
第三百一十七节,Django框架,缓存由于Django是动态网站,所有每次请求均会去数据进行相应的操作,当程序访问量大时,耗时必然会更加明显,最简单解决方式是使用:缓存,缓存将一个某个views的返 ...
shiro缓存
shiro的可以权限控制内容包括:URL地址.Web页面的元素.以及方法,即shiro对用户权限的控制是细粒度的.从用户的一次访问来说,他可能需要最多经过三种.多次的验证.这里的多次怎么说呢?如果说W ...
LaTeX公式
在学习机器学习中会接触到大量的数学公式,所以在写博客是会非常的麻烦.用公式编辑器一个一个写会非常的麻烦,这时候我们可以使用LaTeX来插入公式. 写这篇博文的目的在于,大家如果要编辑一些简单的公式,就 ...
如何通过phoenix中查看表的主键信息
需求描述: 今天一个开发的同事让帮忙查看下表的主键列,在此记录下. 操作过程: 1.通过!primarykeys命令查看表的主键 !primarykeys SYNC_BUSINESS_INFO_BYD ...
在懂得BREW接口的原理之后, 那么该知道BREW接口是如何声明和实现了
参考:http://blog.csdn.net/peteryxk/article/details/1584514 首先介绍几个用到的宏定义: l #define VTBL(iname) ...
单行dp复习hdu1087
我写的想法是每个dp[i]都是前dp[i]的最大值 dp[i]就等于前全部dp[0...i-1]的最大值加上dp[i] 最大值是一个中间变量最大值得选取条件就是序列的值大小都是递增的,也就是a[i] ...
超全面的JavaWeb笔记day18<事务&连接池&DBUtils>
1.事务 ACID 原子性一致性隔离性持久性 mysql中开启和关闭事务开启事务:START TRANSACTION 结束事务提交事务:COMMIT 回滚事务:ROLLBACK JDBC中开 ...
Java精选笔记_Java API
String类 String类的初始化 String是一个特殊的对象,一旦被初始化,就不会被改变 1.使用字符串常量直接初始化一个String对象 String s1="abc" ...
oracle中获取执行计划
1. 预估执行计划 - Explain PlanExplain plan以SQL语句作为输入,得到这条SQL语句的执行计划,并将执行计划输出存储到计划表中. 首先,在你要执行的SQL语句前加expla ...
Zookeeper（二）-- 客户端操作命令
一.前提开启zookeeper服务端,用客户端连接.输入help,查看可使用命令,如下图所示: 操作无非就是增删改查等. 二.增加格式:create [-s] [-e] path data acl ...

Python 百度语音识别与合成REST API及ffmpeg使用

Python 百度语音识别与合成REST API及ffmpeg使用的更多相关文章

随机推荐

热门专题