基于WFST的语音识别解码器

学习语音识别有些时间了。老板要求我们基于Kaldi搭一个语音识别系统，在设备上通过MIC讲话，连着设备的PC的console上就能基本实时显示出讲话的内容。由于我们都是小白，刚开始可以要求低些，就用传统的GMM-HMM，能实现孤立词识别就算达标了，后面随着这方面能力的提高，再做更难一点的。任务下达后我根据之前对kaldi的简单理解把模块分成了三部分：数据准备和MFCC、GMM-HMM、解码网络创建和解码，由三个人每人负责一部分学习，掌握基本原理，搞清楚有哪些事情要做。在其他两个同学先挑了模块后就由我来负责解码网络构建和解码部分了。

我们三个学习了kaldi两三个星期后感觉下来kaldi不是很容易上手，主要原因有四。一是我们都是新手，语音识别领域的一些概念和套路还没完全搞清楚。二是kaldi的文档偏少，不利于代码的理解。三是kaldi是算法和工具的集合，语音识别的整个流程是靠很多复杂的shell和Perl脚本把这些工具串起来实现的，不易读。四是kaldi是用C++实现的，而我们先前主要是用C开发软件（芯片公司的软件工程师多数都是在底层用C开发软件）。我们克服了这些困难，理出了每个模块有哪些事情要做，也搞清楚了软件实现分训练和识别两大部分，有些模块在训练和识别中都有，比如MFCC，而有些模块只在训练中有。训练是给识别做准备的，训练得到声学模型、字典和语言模型，并基于WFST将这三个合并成一个大的解码网络用于识别中。真正运行起来的语音识别系统只有识别部分的软件在运行。

具体到我负责的解码，主要有两大部分组成，一是生成解码网络，二是基于解码网络解码。这里面的重中之重就是WFST（加权的有限状态转换器）。WFST属于半环代数理论。我是学控制出身，读本科时学了高数、矩阵、概率论等，读研究生时对矩阵进行了更深入的学习（控制学科对矩阵的要求较高），其他数学分支都没学过，半环代数理论显然是新东西。由于相关基础没有，学习起来不是很轻松，网上也说这学科对学数学和计算机理论的人学起来轻松些。现阶段我们只是搭语音识别系统，不需要深入研究算法，再加上时间也不允许（老板给我们定下了dealline），就仅仅了解了WFST的基本原理，后面就通过具体的例子来熟悉脚本和代码流程。Kaldi里有两种类型的解码器：offline 和 online。yesno就是最简单的offline解码器的例子，通过运行这个例子基本搞清楚了相关脚本和函数的意思。因为我们要搭的是在线实时系统，offline的参考性不大，也就没太关注，转而去看kaldi里的online decoder了。kaldi里的online decoder有两个版本：online（老版本）和online2（新版本）。官网推荐用online2（基于例子RM(resource management)），并且声称要逐渐把老版本online废弃掉。但是现在RM的语料库无法从网络上下载到，所以例子RM就无法运行，只能去用老版本的online了。还好好多使用者说还是老版本的online好用，总算给我吃了一颗定心丸。看了相关的博客，都是基于kaldi里的唯一的中文识别的例子thchs30来做在线解码的。根据博客的指导，先下语料库，做各种训练得到解码网络等。再下载portaudio，使能从PC的MIC上采集到语音数据。最后改写脚本运行，这样一个在线解码的例子就跑起来了，PC的console上实时显示出了说的文字。在代码里加些log跟踪一下，也就搞清楚了在线解码时软件实现的机制和各种调用过程。

就这样解码相关的除了算法外其他的基本都搞清楚了。按照惯例，要做PPT给组内同学讲，让大家共同提高。我就根据自己的理解做了语音识别解码器相关的内容（一些图片还是借用了各种文档和博客里的，再此表示感谢，就不一一列出了）。下面就是我做的PPT的内容，给有需要的朋友看看。如果有错误，烦请指出，非常感谢！

基于WFST的语音识别解码器的更多相关文章

基于android的语音识别
1.注册账户,添加应用 2.针对android平台的选择应用,下载SDK 3.将SDK的libs下文件拷贝到工程的libs目录下 4.添加用户权限 <uses-permission androi ...
三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的
前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别).刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation(语音识别传统方法(G ...
最简单的基于FFmpeg的移动端例子：IOS 视频解码器-保存
===================================================== 最简单的基于FFmpeg的移动端例子系列文章列表: 最简单的基于FFmpeg的移动端例子:A ...
最简单的基于FFmpeg的解码器-纯净版（不包含libavformat）
===================================================== 最简单的基于FFmpeg的视频播放器系列文章列表: 100行代码实现最简单的基于FFMPEG ...
最简单的基于FFmpeg的移动端样例：Android 视频解码器-单个库版
===================================================== 最简单的基于FFmpeg的移动端样例系列文章列表: 最简单的基于FFmpeg的移动端样例:A ...
最简单的基于FFmpeg的移动端样例：IOS 视频解码器
===================================================== 最简单的基于FFmpeg的移动端样例系列文章列表: 最简单的基于FFmpeg的移动端样例:A ...
最简单的基于FFMPEG+SDL的视频播放器：拆分-解码器和播放器
===================================================== 最简单的基于FFmpeg的视频播放器系列文章列表: 100行代码实现最简单的基于FFMPEG ...
最简单的基于FFmpeg的直播系统开发移动端例子：IOS 视频解码器
本文记录IOS平台下基于FFmpeg的视频解码器.该示例C语言的源代码来自于<最简单的基于FFMPEG+SDL的视频播放器>.相关的概念就不再重复记录了. 源代码项目的目录结构如图所示. ...
Atitit 语音识别的技术原理
Atitit 语音识别的技术原理 1.1. 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),2 1.2. 模型目前,主流的大词汇量语音识别系统多 ...

随机推荐

SpringBoot开发案例之打造十万博文Web篇
前言通过 Python 爬取十万博文之后,最重要的是要让互联网用户访问到,那么如何做呢? 选型从后台框架.前端模板.数据库连接池.缓存.代理服务.限流等组件多个维度选型. 后台框架 SpringB ...
Linux基础进程管理优先级
一.进程优先级 Linux进程调度及多任务每个cpu(或者cpu核心)在一个时间点上只能处理一个进程,通过时间片技术,Linux实际能够运行的进程(和线程数)可以超出实际可用的cpu及核心数量.Li ...
c++/c关于函数指针
顺便提一句:指针也是一种变量类型和 int double 这些类型是一个级别不同的是它的值是地址 #include "stdafx.h"#include<stdlib.h ...
FutrueTask原理及源码分析
1.前言相信很多人了解到FutureTask是因为ThreadPoolExecutor.submit方法,根据ThreadPoolExecutor.submit的使用,我们可以先猜一下FutureT ...
cookie session sessionStorage localStorage
什么是会话? 会话指的是浏览器与服务器之间的数据交互.所白了就是浏览器和服务器进行的请求和响应. http协议是无状态的,多次请求之间没有关联性 cookie和session的作用?干啥的? 利用c ...
windows下通过idea连接hadoop和spark集群
###windows下链接hadoop集群 1.假如在linux机器上已经搭建好hadoop集群 2.在windows上把hadoop的压缩包解压到一个没有空格的目录下,比如是D盘根目录 3.配置环境 ...
使用 .NET CORE 创建项目模板，模板项目，Template
场景:日常工作中,你可能会碰到需要新建一个全新的解决方案的情况(如公司新起了一个新项目,需要有全新配套的后台程序),如果公司内部基础框架较多.解决方案需要DDD模式等,那么从新起项目到各种依赖引用到能 ...
Apex 获取真正的IP地址
代码如下 declare l_ip varchar2(15); begin if OWA_UTIL.GET_CGI_ENV('X-FORWARDED-FOR') is not null then l_ ...
spring-boot-plus集成Spring Boot Admin管理和监控应用(十一)
spring-boot-plus集成Spring Boot Admin管理和监控应用 spring boot admin Spring Boot Admin用来管理和监控Spring Boot应用程序 ...
Nacos（一）：Nacos介绍
前言 6月份阿里开源的Nacos出了1.0.1版本,从去年7月份第一个release版本到现在一直在默默关注官方的版本规划为:Nacos从0.8.0开始支持生产可用,1.0版本可大规模生产可用,2. ...

基于WFST的语音识别解码器

基于WFST的语音识别解码器的更多相关文章

随机推荐

热门专题