基于WFST的语音识别解码器
学习语音识别有些时间了。老板要求我们基于Kaldi搭一个语音识别系统,在设备上通过MIC讲话,连着设备的PC的console上就能基本实时显示出讲话的内容。由于我们都是小白,刚开始可以要求低些,就用传统的GMM-HMM,能实现孤立词识别就算达标了,后面随着这方面能力的提高,再做更难一点的。任务下达后我根据之前对kaldi的简单理解把模块分成了三部分:数据准备和MFCC、GMM-HMM、解码网络创建和解码,由三个人每人负责一部分学习,掌握基本原理,搞清楚有哪些事情要做。在其他两个同学先挑了模块后就由我来负责解码网络构建和解码部分了。
我们三个学习了kaldi两三个星期后感觉下来kaldi不是很容易上手,主要原因有四。一是我们都是新手,语音识别领域的一些概念和套路还没完全搞清楚。二是kaldi的文档偏少,不利于代码的理解。三是kaldi是算法和工具的集合,语音识别的整个流程是靠很多复杂的shell和Perl脚本把这些工具串起来实现的,不易读。四是kaldi是用C++实现的,而我们先前主要是用C开发软件(芯片公司的软件工程师多数都是在底层用C开发软件)。我们克服了这些困难,理出了每个模块有哪些事情要做,也搞清楚了软件实现分训练和识别两大部分,有些模块在训练和识别中都有,比如MFCC,而有些模块只在训练中有。训练是给识别做准备的,训练得到声学模型、字典和语言模型,并基于WFST将这三个合并成一个大的解码网络用于识别中。真正运行起来的语音识别系统只有识别部分的软件在运行。
具体到我负责的解码,主要有两大部分组成,一是生成解码网络,二是基于解码网络解码。这里面的重中之重就是WFST(加权的有限状态转换器)。WFST属于半环代数理论。我是学控制出身,读本科时学了高数、矩阵、概率论等,读研究生时对矩阵进行了更深入的学习(控制学科对矩阵的要求较高),其他数学分支都没学过,半环代数理论显然是新东西。由于相关基础没有,学习起来不是很轻松,网上也说这学科对学数学和计算机理论的人学起来轻松些。现阶段我们只是搭语音识别系统,不需要深入研究算法,再加上时间也不允许(老板给我们定下了dealline),就仅仅了解了WFST的基本原理,后面就通过具体的例子来熟悉脚本和代码流程。Kaldi里有两种类型的解码器:offline 和 online。yesno就是最简单的offline解码器的例子,通过运行这个例子基本搞清楚了相关脚本和函数的意思。因为我们要搭的是在线实时系统,offline的参考性不大,也就没太关注,转而去看kaldi里的online decoder了。kaldi里的online decoder有两个版本:online(老版本) 和online2(新版本)。官网推荐用online2(基于例子RM(resource management)),并且声称要逐渐把老版本online废弃掉。但是现在RM的语料库无法从网络上下载到,所以例子RM就无法运行,只能去用老版本的online了。还好好多使用者说还是老版本的online好用,总算给我吃了一颗定心丸。看了相关的博客,都是基于kaldi里的唯一的中文识别的例子thchs30来做在线解码的。根据博客的指导,先下语料库,做各种训练得到解码网络等。再下载portaudio,使能从PC的MIC上采集到语音数据。最后改写脚本运行,这样一个在线解码的例子就跑起来了,PC的console上实时显示出了说的文字。在代码里加些log跟踪一下,也就搞清楚了在线解码时软件实现的机制和各种调用过程。
就这样解码相关的除了算法外其他的基本都搞清楚了。按照惯例,要做PPT给组内同学讲,让大家共同提高。我就根据自己的理解做了语音识别解码器相关的内容(一些图片还是借用了各种文档和博客里的,再此表示感谢,就不一一列出了)。下面就是我做的PPT的内容,给有需要的朋友看看。如果有错误,烦请指出,非常感谢!
基于WFST的语音识别解码器的更多相关文章
- 基于android的语音识别
1.注册账户,添加应用 2.针对android平台的选择应用,下载SDK 3.将SDK的libs下文件拷贝到工程的libs目录下 4.添加用户权限 <uses-permission androi ...
- 三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的
前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别).刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation(语音识别传统方法(G ...
- 最简单的基于FFmpeg的移动端例子:IOS 视频解码器-保存
===================================================== 最简单的基于FFmpeg的移动端例子系列文章列表: 最简单的基于FFmpeg的移动端例子:A ...
- 最简单的基于FFmpeg的解码器-纯净版(不包含libavformat)
===================================================== 最简单的基于FFmpeg的视频播放器系列文章列表: 100行代码实现最简单的基于FFMPEG ...
- 最简单的基于FFmpeg的移动端样例:Android 视频解码器-单个库版
===================================================== 最简单的基于FFmpeg的移动端样例系列文章列表: 最简单的基于FFmpeg的移动端样例:A ...
- 最简单的基于FFmpeg的移动端样例:IOS 视频解码器
===================================================== 最简单的基于FFmpeg的移动端样例系列文章列表: 最简单的基于FFmpeg的移动端样例:A ...
- 最简单的基于FFMPEG+SDL的视频播放器:拆分-解码器和播放器
===================================================== 最简单的基于FFmpeg的视频播放器系列文章列表: 100行代码实现最简单的基于FFMPEG ...
- 最简单的基于FFmpeg的直播系统开发移动端例子:IOS 视频解码器
本文记录IOS平台下基于FFmpeg的视频解码器.该示例C语言的源代码来自于<最简单的基于FFMPEG+SDL的视频播放器>.相关的概念就不再重复记录了. 源代码 项目的目录结构如图所示. ...
- Atitit 语音识别的技术原理
Atitit 语音识别的技术原理 1.1. 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),2 1.2. 模型目前,主流的大词汇量语音识别系统多 ...
随机推荐
- C# Winform 自定义控件——TextBox
效果: 描述: 类似html标签里input标签里的placeHolder属性,控件继承TextBox,拥有一个描述提示信息的字段_txtPlaceHolder,重写了消息处理函数WndProc, ...
- Spring系列(一):Spring核心概念
一.Spring概念 Spring是一种多层的J2EE应用程序框架,其核心就是管理资源组件以及依赖关系,Spring框架为现代基于java的企业应用程序提供了一个全面的编程和配置模型. 二.Sprin ...
- (七)c#Winform自定义控件-进度条
前提 入行已经7,8年了,一直想做一套漂亮点的自定义控件,于是就有了本系列文章. 开源地址:https://gitee.com/kwwwvagaa/net_winform_custom_control ...
- SpringBoot学习------SpringBoot使用Thymleaf模块访问不了静态页面
SpringBoot使用Thymleaf模块访问不了静态页面 最近学习SpringBoot的过程中使用了Thymeleaf模块引擎,页面发送请求后老是无法显示静态页面,所有的步骤都是参考资料来执行,自 ...
- idea2019.2安装指南
先去官网下载idea官网地址 下载UItimate版本点击 DOWNLOAD等待下载完成 点击ideaIU-2019.2.exe一路next 可以在这一步选一下 继续next ...
- net core Webapi基础工程搭建(六)——数据库操作_Part 2
目录 前言 开始 使用 小结 前言 昨天是写着写着发现,时间不早了,已经养成了晚上下班抽时间看看能写点儿啥的习惯(貌似),今天实在是不想让昨天没做完的事情影响,所以又坐下,沉下心(周末了),开始把数据 ...
- iView表格行验证问题
iView Table 3.2.0 版本 需求: 验证前两行的姓名不能为空: 解决方案: 判断是否前两行,如是则增加校验规则: 需在<FormItem>前加<Form>标签否则 ...
- Redis缓存,持久化,高可用
一,Redis作缓存服务器 本篇博客是接着上一篇博客未分享完的技术点. redis作为缓存服务器是众多企业中的选择之一,虽然该技术很成熟但也是存在一定的问题.就是缓存带来的缓存穿透,缓存击穿, ...
- 记:使用vue全家桶 + vux组件库 打包成 dcloud 5+ app 开发过程中遇到的问题
vue-cli 版本:2.9.6 webpack 版本:3.6.0 1. vue-cli 安装好之后,不是自动打开默认浏览器 在 config文件夹 ---> dev选项中,有个 autoO ...
- 《Java 8 in Action》Chapter 7:并行数据处理与性能
在Java 7之前,并行处理数据集合非常麻烦.第一,你得明确地把包含数据的数据结构分成若干子部分.第二,你要给每个子部分分配一个独立的线程.第三,你需要在恰当的时候对它们进行同步来避免不希望出现的竞争 ...