第三篇：ASR（Automatic Speech Recognition）语音识别

ASR（Automatic Speech Recognition）语音识别：

　　　　　　https://ai.baidu.com/docs#/ASR-Online-Python-SDK/top

　　　　第三方模块：pip install baidu-aip　　

　　ASR_test.py

 from aip import AipSpeech

 import os

 """ 你的 APPID AK SK """

 APP_ID = ''

 API_KEY = 'jM4b8GIG9gzrzySTRq3szK2E'

 SECRET_KEY = 'iE626cEpjT1iAVwh24XV5h1QFuR8FPD2'

 client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

 # 读取文件

 def get_file_content(filePath):

     #文件格式转换成pcm(前提是需要安装ffmpeg软件并配置环境变量)

     pcm_filePath = filePath.split('.')[0] + '.pcm'

     cmd_str=f'ffmpeg -y  -i {filePath}  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {pcm_filePath}'

     os.system(cmd_str)#调用os.system()在CMD执行命令

     filePath=pcm_filePath

     with open(filePath, 'rb') as fp:

         return fp.read()

 # 识别本地文件

 result=client.asr(get_file_content('1.m4a'), 'pcm', 16000, {

     'dev_pid': 1536,

 })

 text=result.get('result')[0]

 print(result)

 print(text)

 '''

 asr函数需要四个参数,第四个参数可以忽略,自有默认值,参照一下这些参数是做什么的

 第一个参数: speech 音频文件流 建立包含语音内容的Buffer对象, 语音文件的格式，pcm 或者 wav 或者 amr。(虽说支持这么多格式,但是只有pcm的支持是最好的)

 第二个参数: format 文件的格式,包括pcm（不压缩）、wav、amr (虽说支持这么多格式,但是只有pcm的支持是最好的)

 第三个参数: rate 音频文件采样率 如果使用刚刚的FFmpeg的命令转换的,你的pcm文件就是16000

 第四个参数: dev_pid 音频文件语言id 默认1537（普通话 输入法模型）

 '''

　　原始语音文件通过windows10自带的<录音机>进行录制等，转换成语音识别推荐格式pcm，最后识别输出文字

第三篇：ASR（Automatic Speech Recognition）语音识别的更多相关文章

论文翻译：2015_DNN-Based Speech Bandwidth Expansion and Its Application to Adding High-Frequency Missing Features for Automatic Speech Recognition of Narrowband Speech
论文地址:基于DNN的语音带宽扩展及其在窄带语音自动识别中加入高频缺失特征的应用论文代码:github 博客作者:凌逆战博客地址:https://www.cnblogs.com/LXP-Never ...
论文阅读笔记“Attention-based Audio-Visual Fusion for Rubust Automatic Speech recognition”
关于论文的阅读笔记论文的题目是“Attention-based Audio-Visual Fusion for Rubust Automatic Speech recognition”,翻译成中文为 ...
A Bayesian Approach to Deep Neural Network Adaptation with Applications to Robust Automatic Speech Recognition
基于贝叶斯的深度神经网络自适应及其在鲁棒自动语音识别中的应用直接贝叶斯DNN自适应使用高斯先验对DNN进行MAP自适应为何贝叶斯在模型自适应中很有用? 因为自适应问题可以视为后验估计问题 ...
C#的语音识别 using System.Speech.Recognition;
using System; using System.Collections.Generic; using System.Linq; using System.Speech.Recognition; ...
FPGA 17最佳论文导读 ESE: Efficient Speech Recognition Engine with Compressed LSTM on FPGA
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 后面陆续写一些关于神经网络加 ...
第三篇：微信公众平台开发实战Java版之请求消息，响应消息以及事件消息类的封装
微信服务器和第三方服务器之间究竟是通过什么方式进行对话的? 下面,我们先看下图: 其实我们可以简单的理解: (1)首先,用户向微信服务器发送消息: (2)微信服务器接收到用户的消息处理之后,通过开发者 ...
Utterance-Wise Recurrent Dropout And Iterative Speaker Adaptation For Robust Monaural Speech Recognition
单声道语音识别的逐句循环Dropout迭代说话人自适应 WRBN(wide residual BLSTM network,宽残差双向长短时记忆网络) [2] J. Heymann, L. Dr ...
（三）Hololens Unity 开发之语音识别
学习源于官方文档 Voice input in Unity 笔记一部分是直接翻译官方文档,部分各人理解不一致的和一些比较浅显的保留英文原文 (三)Hololens Unity 开发之语音识别 Hol ...
[翻译]Review——How to do Speech Recognition with Deep Learning
原文地址:https://medium.com/@ageitgey/machine-learning-is-fun-part-6-how-to-do-speech-recognition-with-d ...

随机推荐

Kubernetes产生背景、核心概念
Kubernetes是什么 • Kubernetes是Google在2014年开源的一个容器集群管理系统,Kubernetes简称K8S. • Kubernetes用于容器化应用程序的部署,扩展和管理 ...
js 之箭头函数 (未学完)
js之箭头函数表达式箭头函数表达式的语法比函数表达式更短,并且没有自己的this,arguments,super或 new.target.这些函数表达式更适用于那些本来需要匿名函数的地方,并且它们不 ...
java在指定区间内生成随机数
Random对象生成随机数首先需要导入包含Random的包 import java.util.Random; nextInt(int)方法将生成0~参数之间的随机整数但不包括参数. 例如生成0~99 ...
安装并使用pyecharts库
在cmd命令行中输入安装命令, pyecharts库的安装命令如下: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyecharts ...
使用@vue/cli搭建vue项目开发环境
当前系统版本 mac OS 10.14.2 1.安装node.js开发环境前端开发框架和环境都是需要 Node.js vue的运行是要依赖于node的npm的管理工具来实现 <mac OS ...
Unity碰撞检测
2019独角兽企业重金招聘Python工程师标准>>> 我们在用unity做开发的时候,会遇到要用到碰撞检测的问题,比如说,物体撞到墙壁,子弹打到物体等等,所以这里简单介绍一下uni ...
Vim Operations
Vim有三种模式:输入模式.命令模式和末行命令模式. 输入模式用来输入文字,命令模式用来下达编排文件的操作指令,末行命令模式用来进行文件存档.离开编辑器等操作. 进入及离开末行模式下: :w 保存当 ...
C++--浅谈开发系统的经验
最近写了不少类了,从垃圾代码爬坑,虽然还是很垃圾,但是照葫芦画瓢,有几分神韵.在这里总结一下,写类的经验教训. 第一步分析: 当拿到一个要求时,要先去考虑怎样一个类到底该实现什么样的功能,有什么样的 ...
题目分享E 二代目
题意:一棵点数为n的树,每个节点有点权,要求在树中中找到一个最小的x,使得存在一个点满足max(该点点权,该点相邻的点的点权+1,其他点的点权+2)=x 分析:首先要能把题目转化为上述题意首先题目让 ...
SpringBoot集成Quartz实现定时任务
1 需求在我的前后端分离的实验室管理项目中,有一个功能是学生状态统计.我的设计是按天统计每种状态的比例.为了便于计算,在每天0点,系统需要将学生的状态重置,并插入一条数据作为一天的开始状态.另外,考 ...

第三篇：ASR（Automatic Speech Recognition）语音识别

第三篇：ASR（Automatic Speech Recognition）语音识别的更多相关文章

随机推荐

热门专题