语音识别传统方法(GMM+HMM+NGRAM)概述

春节后到现在近两个月了，没有更新博客，主要是因为工作的关注点正从传统语音（语音通信）转向智能语音（语音识别）。部门起了个新项目，要用到语音识别（准备基于Kaldi来做）。我们之前做的传统音频已基本成熟，就开始关注在语音识别上了。对于我们来说，这是个全新的领域（虽然都是语音相关的，但是语音通信偏信号处理，传统语音识别方法偏概率统计），需要学习的知识很多，所以这段时间主要是在学习新知识了，主要学习了数学（高数/线性代数/概率统计，这应该算复习）、机器学习基础知识、深度学习、语音识别传统方法等。由于刚开始学，还没实践，有的还是一知半解。学的过程中也要有输出（把自己学的知识讲给组内其他同学听，并一起讨论，让大家都快速入门），这也能促进把学的东西掌握的更好。我花了两周的时间学习了语音识别的传统方法（主要学习方式是看文档和博客），基本上掌握了其方法，也做了PPT给组内同学讲（做PPT时用了一些博客上的图，谢谢这些博主，这里就不一一列举了）。今天就把这个PPT share出来，给也想入门语音识别的朋友做个参考。由于还没实践，有什么不太准确或不准确的地方还请指出。

语音识别传统方法主要分两个阶段：训练和识别，训练阶段主要是生成声学模型和语言模型给识别阶段用。传统方法主要有五大模块组成，分别是特征提取（得到每帧的特征向量），声学模型（用GMM从帧的特征向量得到状态，再用HMM从状态得到音素）、发音字典（从音素得到单词）、语言模型（从单词得到句子）、搜索解码（根据声学模型、发音字典和语言模型得到最佳文本输出），即从帧得到特征向量（特征提取干的话），从特征向量得到状态（GMM干的话），从状态得到音素（HMM干的话），从音素得到单词（发音字典干的活），从单词得到句子（语言模型干的活）。传统方法除了在特征提取上用到信号处理知识，其余全都是概率统计等知识，所以说语音识别和语音通信是两个完全不同的领域。

经过近十年的发展，语音识别已经从传统方法演进到基于深度学习的方法，识别率也有了质的提升，而且还在快速的演变中，现在商用的语音识别系统都是基于深度学习实现的。对于传统方法而言，只会出现在文章教材中了，但作为新手，在入门时学习它还是很有必要的。只有了解了传统方法再去学习深度学习方法，才知道深度学习方法是怎么样基于传统方法一步步演变的。下面就是我的PPT。

语音识别传统方法(GMM+HMM+NGRAM)概述的更多相关文章

HMM的概述（五个基本元素、两个假设、三个解决的问题）
一.五个基本元素 HMM是个五元组 λ ＝( S, O , π ,A,B) S:状态值集合,O:观察值集合,π:初始化概率,A:状态转移概率矩阵,B:给定状态下,观察值概率矩阵二.两个假设 HM ...
三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的
前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别).刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation(语音识别传统方法(G ...
Atitit 语音识别的技术原理
Atitit 语音识别的技术原理 1.1. 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),2 1.2. 模型目前,主流的大词汇量语音识别系统多 ...
GMM-HMM语音识别模型原理篇
本文简明讲述GMM-HMM在语音识别上的原理,建模和測试过程.这篇blog仅仅回答三个问题: 1. 什么是Hidden Markov Model? HMM要解决的三个问题: 1) Likelihood ...
基于隐马尔科夫模型(HMM)的地图匹配(Map-Matching)算法
文章目录 1. 1. 摘要 2. 2. Map-Matching(MM)问题 3. 3. 隐马尔科夫模型(HMM) 3.1. 3.1. HMM简述 3.2. 3.2. 基于HMM的Map-Matchi ...
kaldi的TIMIT实例一
TIMIT语音库是IT和MIT合作音素级别标注的语音库,用于自动语音识别系统的发展和评估,包括来自美式英语,8个地区方言,630个人. 每个人读10个句子,每个发音都是音素级别.词级别文本标注,16k ...
【Todo】【转载】深度学习&神经网络科普及八卦学习笔记 & GPU & SIMD
上一篇文章提到了数据挖掘.机器学习.深度学习的区别:http://www.cnblogs.com/charlesblc/p/6159355.html 深度学习具体的内容可以看这里: 参考了这篇文章:h ...
杂记：腾讯暑期实习 Web 后端开发面试经历
今天面试(一面)腾讯暑期实习 Web 后端开发,一言难尽. 第一部分,常规的自我介绍. 介绍完,面试官问我对人工智能有什么理解?深度学习和机器学习的区别?对调参有什么见解?语音识别中怎样运用了机器学习 ...
kaildi讲解
转载声明:本文为转载文章作者:ferb2015 原文地址:https://blog.csdn.net/eqiang8848/article/details/81543599 kaldi是一个开源的语 ...

随机推荐

运维yum搭建zabbix
前言: zabbix([`zæbiks])是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案. zabbix能监视各种网络参数,保证 ...
Python 验证线程是数据共享的
import os import time from threading import Thread # from multiprocessing import Process #通过对全局变量的修改 ...
Linux 驱动——Button驱动2
button_drv.c驱动文件: #include <linux/module.h>#include <linux/kernel.h>#include <linux/f ...
MDK5报错missing closing quote
用emwin做界面的时候遇到的错误,MDK5可能无法编译一些汉字编码,对应汉字在信息反馈中会显示为乱码,更会附带一些如“expected a "}"”这样的错误提示. 解决方法:O ...
bbs项目学习到的知识点(orm中的extra)
注册 form组件给input 的标签添加样式类参见这篇博客(点击) 上传图像 1.解决一点击图像就会直接打开上传文件的按钮 #这儿利用了 label标签和input的特殊的联动功能 < ...
Linux命令基础2-ls命令
本文介绍的是linux中的ls命令,ls的单词是list files的缩写,意思的列出目录文件. 首先我们在admin用户的当前路径,新建一个test的文件夹,为了方便本文操作和介绍,创建了不同文件类 ...
easyui获取正在编辑行的代码
easyui获取正在编辑行的代码……没这个真不知道怎么搞0.0可能这问题还要弄半天……卧槽 ...等于是笔记下来 : var ed = $("dg").datagrid('get ...
Java程序第一次作业
public class yjj { public static void main(String[] args) { System.out.println("Hello Java" ...
今天在2cto网站看到一个有关try{}catch(){}finally{}语句中含有return的讲解，理解很透彻。
publicclassTrycatchTest{ publicstaticvoidmain(String[]args){ System.out.println("x:"+newTr ...
2019OO第一单元作业总结
OO第一单元作业的主题是求导,下面将分三次作业分别总结一下. --------------------------------------------------------------------- ...

语音识别传统方法(GMM+HMM+NGRAM)概述

语音识别传统方法(GMM+HMM+NGRAM)概述的更多相关文章

随机推荐

热门专题