微信小程序语音识别

语音识别现在已经发展的很成熟了,经过比对发现百度对开发者比较友好，提供很多种语言的SDK,对python来说直接安装 pip install baidu-aip 文档写的也不错具体参考:http://ai.baidu.com/docs#/ASR-Online-Python-SDK/top

也看了讯飞的语音，发现讯飞对开发者的支持不是太好，调用起来不方便

其实最关键的是微信小程序的语音格式是silk,两家都不能识别silk,需要将silk格式转为wav或者pcm格式，音频格式的转换遇到了麻烦，搞了两天才算转换成功，测试发现将语音文件转为wav识别起来成功率高

看到其他人的博客说是silk其实是base64加密后的webm格式,说是需要先将base64解密，还需要自己写解密的代码，参考：http://blog.csdn.net/rjliulei/article/details/77800760

自己比较懒，总是想找成熟的解决方案，终于找到一个很棒的方案:

需要安装FFmpeg和 silk-v3-decoder

FFmpeg找下安装教程即可

silk-v3-decoder的安装参考:https://www.imooc.com/article/21550?block_id=tuijian_wz

再就是转码的命令了,参考：http://blog.csdn.net/m0_37730244/article/details/78615427

命令转码的时候有个地方看了半天才看懂 silk/decoder /data/test.silk /data/1.pcm

编译 silk-v3-decoder后会在里面生成一个silk的目录，里面有个decoder程序，这是转换的关键用它执行音频格式转换

测试了好几个wav和pcm识别的效果，发现还是wav识别率高,我用的是 ffmpeg -y -f s16le -ar 24000 -ac 1 -i /data/1.pcm -f wav -ar 16000 -b:a 16 -ac 1 /data/1.wav

将pcm转为wav的命令,最后调用百度的识别sdk

下面是识别的接口

# coding=utf-8
from aip import AipSpeech
import os

class ConvertVoice(object):
    """百度语音识别"""

    def __init__(self):
        super(ConvertVoice, self).__init__()
        self.APP_ID = '用的时候需要换成自己申请的内容'
        self.API_KEY = '用的时候需要换成自己申请的内容'

        self.SECRET_KEY = '用的时候需要换成自己申请的内容'

        self.client = AipSpeech(self.APP_ID, self.API_KEY, self.SECRET_KEY)

    def get_file_content(self, filePath):
        '''
        读取文件
        :param filePath: 文件的绝对路径
        :return:
        '''
        try:
            with open(filePath, 'rb') as fp:
                return fp.read()
        except Exception as error_msg:
            print(error_msg)
            return error_msg

    def get_str_from_voice(self, filePath):
        '''
        识别本地文件
        :param filePath: 文件的绝对路径
        :return:
        '''
        try:
            if os.path.exists(filePath):
                rt = self.client.asr(self.get_file_content(filePath), 'wav', 16000, {
                    'lan': 'zh'})
                return rt
            else:
                return {"err_no": 2000, "err_msg": "文件不存在"}
        except Exception as error_msg:
            print(error_msg)
            return error_msg

if __name__ == '__main__':
    cv = ConvertVoice()
    rt = cv.get_str_from_voice("F:/19.wav")
    print(rt)

微信小程序语音识别的更多相关文章

微信小程序语音识别开发过程记录微信小程序silk转mp3 silk转wav 以及ffmpeg使用
说说最近在开发微信小程序语音识别遇到的问题吧最先使用微信小程序录音控件可以拿到silk格式,后来微信官方又支持mp3格式了但是我们拿到这些格式以后,都还不能直接使用,做语音识别,因为目前百度的语音 ...
微信小程序语音识别服务搭建全过程解析（项目开源在github）
silk v3录音转olami语音识别和语义处理的api服务(ubuntu16.04服务器上实现) ## 重要的写在前面重要事项一: 目前本文中提到的API已支持微信小程序录音文件格式:silk v ...
微信小程序语音识别服务搭建全过程解析（https api开放，支持新接口mp3录音、老接口silk录音）
silk v3(或新录音接口mp3)录音转olami语音识别和语义处理的api服务(ubuntu16.04服务器上实现) 重要的写在前面重要事项一: 所有相关更新,我优先更新到我个人博客中,其它地方 ...
支持语音识别、自然语言理解的微信小程序（“遥知之”智能小秘）完整源码分享
记录自己搭建https的silk录音文件语音识别服务的调用过程,所有代码可在文中找链接打包下载 >>>>>>>>>>>>> ...
微信小程序学习指南
作者:初雪链接:https://www.zhihu.com/question/50907897/answer/128494332来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明 ...
微信小程序语音与讯飞语音识别接口（Java）
项目需求,需要使用讯飞的语音识别接口,将微信小程序上传的录音文件识别成文字返回而微信小程序上传的文件格式是silk的,而讯飞接口能识别wav 格式的文件,所以需要将小程序上传的silk文件转成wav ...
微信小程序语音与讯飞语音识别接口（Java），Kronopath/SILKCodec，ffmpeg处理silk，pcm，wav转换
项目需求,需要使用讯飞的语音识别接口,将微信小程序上传的录音文件识别成文字返回首先去讯飞开放平台中申请开通语音识别功能在这里面下载sdk,然后解压,注意appid与sdk是关联的,appid在初始 ...
语音识别功能_微信小程序代办清单任务
最近想给自己的代办清单任务微信小程序想加个语音识别识别功能,废话不多说,直接说重点,语音识别使用的是百度语音识别api,因为微信小程序的录音输入文件目前只能是mp3或aac 但是百度语音识别不支持这两 ...
微信小程序开发语音识别文字教程
微信小程序开发语音识别文字教程现在后台添加插件微信同声传译然后app.json 加入插件 "plugins": { "WechatSI": { &quo ...

随机推荐

We are writing to let you know we have removed your selling privileges
Hello, We are writing to let you know we have removed your selling privileges, canceled your listin ...
pip安装Crypto注意事项
pip install PyCrypto 1.使用pip install Crypto的方式安装的文件夹名称为crypto,而内部引用都用的Crypto路径,因此pip安装后,需要将文件夹名称修改为C ...
《Linux内核分析》学习总结与学习心得
一.目录列表第一周:计算机是如何工作的? http://www.cnblogs.com/dvew/p/5224866.html 第二周:操作系统是如何工作的? http://www.cnblogs. ...
[codecademy]css
Great work! You've learned the basics of CSS structure and syntax. We'll continue to build on these ...
TCP系列42—拥塞控制—5、Linux中的慢启动和拥塞避免（二）
在本篇中我们继续上一篇文章wireshark的示例讲解,上一篇介绍了一个综合示例后,本篇介绍一些简单的示例,在读本篇前建议先把上一篇读完,为了节省篇幅,本篇只针对一些特殊的场景点报文进行讲解,不会像上 ...
PAT---福尔摩斯约会时间
主要为字符串的处理,注意读懂题目意思. 设置输出域宽和填充字符的函数分别为setw(int n),setfill(char c);两个函数的头文件为#include<iomanip>; # ...
paoding-rose 之 maven配置
<dependency>  <groupId>junit</groupId> <artifactId>j ...
Tomcat指定JDK路径
一.应用实例一般情况下一台服务器只跑一个业务,那么就直接配置一套环境,设置好Java环境变量即可.某些时候一台服务器上会安装多个业务,而且各个业务需要的JDK版本各不相同,或者为了使业务独立开来,需 ...
ASP.NET前后端分离框架
10个linux网络和监控命令
我下面列出来的10个基础的每个linux用户都应该知道的网络和监控命令.网络和监控命令类似于这些: hostname, ping, ifconfig, iwconfig, netstat, nsloo ...

微信小程序语音识别

微信小程序语音识别的更多相关文章

随机推荐

热门专题