调用百度语音AI实现语音的识别和合成

#coding:utf-8

## 先去ffmpeg官网下载（https://ffmpeg.zeranoe.com/builds/），好了之后解压缩，配一下环境变量

## 打开cmd，运行命令，安装如下的包

## pip install baidu-aip

## pip install pydub

## pip install PyAudio

## pip install Wave

""" 调用百度语音api """

from aip import AipSpeech

APP_ID = " "

API_KEY = " "

SECRET_KEY = " "

client = AipSpeech(APP_ID,API_KEY,SECRET_KEY)

def speech_synthesis(text, filepath):

    """ 语音合成：文字转语音 """

    result = client.synthesis(text, 'zh', 1, {

        'vol': 5,

        'spd': 5,

        'pit': 5,

        'per': 0,

    })

    if not isinstance(result, dict):

        with open (filepath , 'wb') as file: file.write(result)

def play_speech(filepath):

    import os

    os.system("ffplay %s"%(filepath))

# def play_speech(filepath):

    # """ 播放语音 """

    # import pyaudio

    # import wave

    # wf = wave.open(filepath, 'rb') #二进制只读方式打开wav文件

    # p = pyaudio.PyAudio()

    # stream=p.open(format=p.get_format_from_width(wf.getsampwidth()),channels=wf.getnchannels(),rate=wf.getframerate(),output=True)

    # stream = p.open(format=pyaudio.paInt16,

                    # channels=1,

                    # rate=16000,

                    # output=True) #打开数据流

    # data = wf.readframes(1024) #读取数据

    # while data != '': #播放

        # stream.write(data)

        # data = wf.readframes(1024)

    # stream.stop_stream()

    # stream.close()

    # p.terminate()

# def Conversion_sampling_rate(filepath, newfilepath):

    # """ 转换采样率 """

    # from pydub import AudioSegment

    # setframefp = AudioSegment.from_file(filepath)

    # setframefp.set_frame_rate(16000)

    # setframefp.export(newfilepath, format='wav')

def wav_to_pcm(wav_file):

    """ wav文件转为16k pcm文件 """

    import os

    pcm_file = "%s.pcm" %(wav_file.split(".")[0])

    os.system("ffmpeg -y  -i %s  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 %s"%(wav_file,pcm_file))

    return pcm_file

def sound_record(file_name):

    """ 录音 """

    import pyaudio

    import wave

    CHUNK = 1024

    FORMAT = pyaudio.paInt16

    CHANNELS = 1

    RATE = 16000

    RECORD_SECONDS = 3

    p = pyaudio.PyAudio()

    stream = p.open(format=FORMAT,

                    channels=CHANNELS,

                    rate=RATE,

                    input=True,

                    frames_per_buffer=CHUNK)

    print("开始录音,请说话......")

    frames = []

    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):

        data = stream.read(CHUNK)

        frames.append(data)

    print("录音结束!")

    stream.stop_stream()

    stream.close()

    p.terminate()

    wf = wave.open(file_name, 'wb')

    wf.setnchannels(CHANNELS)

    wf.setsampwidth(p.get_sample_size(FORMAT))

    wf.setframerate(RATE)

    wf.writeframes(b''.join(frames))

    wf.close()

def speech_recognition(filepath):

    """ 语音识别：语音转文字 """

    with open(filepath, 'rb') as fp:speechfile = fp.read()

    result = client.asr(speechfile, 'pcm', 16000, {

        'dev_pid': 1536,

    })

    try:

        res_str = result.get("result")[0]

        print(res_str)

    except:

        res_str = "error"

        print("识别没有成功")

    return res_str

# 测试

# text = "世界很复杂百度更懂你"

# synthesisfilepath = "synthesisspeech.pcm"

# synthesisfilepath = "16k.pcm"

# speech_synthesis(text, synthesisfilepath)

# wav_file = pcm_to_wav(synthesisfilepath)

# play_speech(wav_file)

# recordfilepath = "recordspeech.wav"

# sound_record(recordfilepath)

# pcm_file = wav_to_pcm(recordfilepath)

# speech_recognition(pcm_file)

""" 控制面板 """

from tkinter import *

from tkinter import ttk

from tkinter import messagebox

import os

class App:

    def __init__(self, master):

        self.master = master

        self.master.title("调用百度AI识别语音")

        self.master.geometry("500x400")

        self.buttonimg = PhotoImage(file= os.path.join(os.path.dirname(os.path.abspath(__file__)), 'luyin - small.gif'))

        self.initWidgets()

    def initWidgets(self):

        self.button = Button(self.master, text='开始录音', image=self.buttonimg, command=self.open_sound_record, height=100,width=100)

        self.button.pack(ipadx=5, ipady=5,  pady = 20)

        self.label = Label(self.master, text="语音识别结果:")

        self.label.place(x=100,y=400,anchor='nw')

        self.label.pack()

        self.text = Text(self.master, height=3, width=200)

        self.text.place(x=150,y=400,anchor='nw')

        self.text.pack()

    def open_sound_record(self):

        recordfilepath = "recordspeech.wav"

        sound_record(recordfilepath)

        pcm_file = wav_to_pcm(recordfilepath)

        res_str = speech_recognition(pcm_file)

        if res_str == "error":

            print(messagebox.showinfo("出错","没有成功识别语音！"))

        else:

            self.text.insert("insert", res_str)

            # text = "语音识别的结果是"+res_str

            # synthesisfilepath = "synthesisspeech.pcm"

            # speech_synthesis(text, synthesisfilepath)

            # play_speech(synthesisfilepath)

root = Tk()

App(root)

root.mainloop()

调用百度语音AI实现语音的识别和合成的更多相关文章

QT调用百度语音REST API实现语音合成
QT调用百度语音REST API实现语音合成 1.首先点击点击链接http://yuyin.baidu.com/docs/tts 点击access_token,获取access_token,里面有详细 ...
初探机器学习之使用百度AI服务实现图片识别与相似图片
一.百度云AI服务最近在调研一些云服务平台的AI(人工智能)服务,了解了一下阿里云.腾讯云和百度云.其中,百度云提供了图像识别及图像搜索,而且还细分地提供了相似图片这项服务,比较符合我的需求,且百度 ...
c# 利用AForge和百度AI开发实时人脸识别
baiduAIFaceIdentify项目是C#语言,集成百度AI的SDK利用AForge开发的实时人脸识别的小demo,里边包含了人脸检测识别,人脸注册,人脸登录等功能人脸实时检测识别功能思路是 ...
【第1篇】人工智能（AI）语音测试原理和实践---宣传
前言本文主要介绍作者关于人工智能(AI)语音测试的各方面知识点和实战技术. 本书共分为9章,第1.2章详细介绍人工智能(AI)语音测试各种知识点和人工智能(AI)语音交互原理:第3.4章介绍人工智 ...
基于HTK语音工具包进行孤立词识别的使用教程
选自:http://my.oschina.net/jamesju/blog/116151 1前言最近一直在研究HTK语音识别工具包,前几天完成了工具包的安装编译和测试,这几天又按耐不住好奇,决定自己 ...
三星语音AI助理背后的华人身影—73岁科技人三度创业成功（孙子兵法：道、天、地、将、法）
我绝对不当老二,也不当老大,我要当霸主!”说这句话的是富迪科技董事长黄炎松.他还把“独霸”当作公司愿景宣言,大剌剌的放在美国总公司进门最显眼的墙上. 集微网消息,据台湾商业周刊报道,黄炎松,是台湾 ...
Excel催化剂开源第25波-Excel调用百度AI，返回AI结果
现成的这些轮子,无需调用网页,直接本地离线即可生成). 当然在AI时代,少不了各种AI接口的使用场景,普通开发者只需聚焦在自己的业务场景上,这些AI底层技术,只需类似水煤电一般去BAT这些大厂那里去消 ...
Java文字识别软件-调用百度ocr实现文字识别
java_baidu_ocr Java调用百度OCR文字识别API实现图片文字识别软件这是一款小巧方便,强大的文字识别软件,由Java编写,配上了窗口界面调用了百度ocr文字识别API 识别精度高 ...
百度语音合成AI
注意:不要使用Dw编辑PHP代码,会因为编码问题出错!!<?php require_once 'AipSpeech.php'; // 你的 APPID AK SK const APP_ID = ...

随机推荐

解决方案：从网站下载Excel，我的Office 2016，打开excel文件，显示空白
今天在写Excel导出案例demo的时候发现,Excel下载后打开空白,要打开了看到空白后再点击一次打开后才可以显示,效果就如下图所示: 那么我就不能一次打开吗?我找了半天最终在这个博客找到了答案:h ...
VS 2017 代码报错编译正常
今天遇到一个奇葩的错误,代码报红波浪线错误,但编译正常,程序能正常运行; 解决方法在项目引用中把报错的代码所在项目先移除,再重新引用,然后编译一下就好了
Oracle number类型前端界面和数据库查询不一致 number精度问题
[发现问题] [问题分析] Ⅰ.在前端界面查询,发现了库存中存在这样的数量值.但是在数据库中查询时显示正常.即6.999999999999997 为 7. Ⅱ.至于这种小数产生,我以为是oracle存 ...
react学习之js-xlsx导入和导出excel表格
前记:最近真的挺忙的,一件事接着一件,都忘了我的React项目,尽管这是一个没写概率没写离散的夜晚,我决定还是先做做我的React 好了,进入正题项目需求,需要导入和导出表单,发现前端已经强大到无所 ...
spring data JPA entityManager查询并将查询到的值转为实体对象
spring data JPA entityManager查询并将查询到的值转为实体对象 . https://blog.csdn.net/qq_34791233/article/details/81 ...
IntersectionObserver API，观察元素是否进入了可视区域
网页开发时,常常需要了解某个元素是否进入了"视口"(viewport),即用户能不能看到它. 上图的绿色方块不断滚动,顶部会提示它的可见性. 传统的实现方法是,监听到scroll事 ...
[CodeForces - 1225D]Power Products 【数论】【分解质因数】
[CodeForces - 1225D]Power Products [数论] [分解质因数] 标签:题解 codeforces题解数论题目描述 Time limit 2000 ms Memory ...
Zabbix-(七)分布式监控
Zabbix-(七)分布式监控一.前言 Zabbix提供了一套分布式监控的方案,即使用Zabbix Proxy,本文记录使用Zabbix Proxy进行分布式监控. 官方所述Proxy的使用场景如下 ...
router-view 与动态组件区别
提问:router-view 可以页面跳转,使用 is特性也可以进行页面跳转,有什么区别? 参考链接 https://segmentfault.com/q/1010000010750059
Go初学乍练 - 安装以及开发环境搭建
本文介绍主要以Windows作为开发系统环境 1.下载SDK 官方下载页:https://golang.org/dl/ 官方下载地址: 地址类型 https://dl.google.com/go/g ...

调用百度语音AI实现语音的识别和合成

调用百度语音AI实现语音的识别和合成的更多相关文章

随机推荐

热门专题