一、语音识别基本介绍

（一）统计语音识别的基本等式

X------声学特征向量序列，观测值

W------单词序列

W*------给定观测值下，概率最大的单词序列

应用贝叶斯理论等价于

进而得出统计语音识别的框架

（二）统计语音识别的框架

运用声学模型、语言模型、词典得出给定观测值下概率最大的单词序列

（三）评价指标

运用单词错误率评价语音识别的好坏

单词错误率=（替换错+删除错+插入错）/单词总数

识别准确率=1-单词错误率

二、基于HMM的孤立词识别

（一）整体流程

假设所有单词出现的先验概率相同

训练阶段：

为每个单词收集训练记录集合

为每个单词的每条训练记录计算特征向量序列，形成HMM的观测序列集合

为每个单词训练HMM模型

识别阶段：

为测试记录计算特征向量序列

应用前向算法／维特比近似，根据每一个单词的HMM模型计算该特征向量序列的概率

选出概率最大的HMM模型对应的单词

（二）细节问题

1、HMM拓扑结构

对于SR，

the Bakis topology

states may be skipped

2、状态数

常3到5个

3、高斯分量数

通常不少于4个

4、状态输出密度函数的参数的初始化

开始时，假设每个状态对应于一个单高斯(后会通过高斯分裂获得GMM)，

对于Bakis拓扑结构的HMM，一个很好的初始化方式是"flat"初始化：

计算每个单词的训练记录的所有特征向量的均值及协方差，

用这个均值和协方差初始化这个单词所有状态对应的高斯，

通过迭代进行参数更新至收敛；

＊高斯分裂计算GMM，

通过迭代进行参数更新至收敛，

若未达到需要的高斯分量数，转至＊．

三、基于HMM的连续词识别

（一）non-emitting states/null states

单词的最后一个状态只能自转，无法转移到下一个单词

为简化连接，引入non-emitting states/null states无发射状态概念

无发射状态不生成观测值－－－无需对其状态输出分布进行高斯建模

无发射状态不允许自转

（二）包含无发射状态的HMM

不允许在词内转入或转出无发射状态

在时刻t转入无发射状态的概率等于该词的观测序列在时刻t结束的概率

（三）用无发射状态连接词级HMM

离开词1的概率等于进入词2的概率

一些情况下，会保留无发射状态作为连接单词的状态

这时，从这个无发射状态进入词2的概率为1.0－－－唯一被允许的转出概率

（四）带有无发射状态的HMM的3个问题

1、前向后向概率的计算

前向概率：

任何时刻的任何状态的前向概率收到了前一时刻的发射状态和当前时刻的无发射状态的贡献

注：

无发射状态没有时间的概念，因为没有观测值与其对齐

为了计算简便，这儿将无发射状态与当前时刻相联系

后向概率：

2、维特比解码

无发射状态影响了维特比解码，

这在词序列的实际识别算法中至关重要

3、参数估计

Sijk－－－第j个单词HMM的第k个状态的第i个实例

（五）词间停顿

silence

optional silence

（六）剪枝

为降低计算复杂度

前向剪枝

后向剪枝

四、子词单元

（一）基于单词建模的识别

需要为每个要识别的单词训练模型－－－不灵活，单词量大时，参数量巨大

只能为能获得训练数据的单词来训练模型－－－无法识别声学模型训练数据中未出现过的单词

Zipf定律：在自然语言的语料库里，一个单词出现的次数与它在频率表里的排名成反比。

因此，常见的单词的数量少，少见的单词的数量多－－－少见词更重要，常携带的信息更多

（二）最常见的子词单元－－－音素

相较于单词来说，稀有音素数量少得多，保证了所有音素模型都能有足够的数据用于训练

只要知道其发音，可以为未在声学模型训练数据中出现过的单词进行建模

每个模型的平均训练数据量：

词级＜音素级

随着训练数据和词汇量的增加，音素级会比词级大得越来越多

（三）音素集的选择

经验：

除单音外，若复合音频繁出现且可以从单音平滑过渡到另一个单音，可将其认为是一个子词单元

常diphthongs双连音，triphthongs三连音

（四）基于音素的识别

音素的使用只是为了更好地训练模型，识别仍然使用的是单词

单词建模由子词建模组成，单个单词的HMM建模连接起来形成词序列／语法HMM

单词多发音问题

最好使一个单词的备用发音尽可能地少，不要包含非常稀有的发音，它们只会引发困惑

上下文无关的GMM-HMM声学模型的更多相关文章

语音识别传统方法(GMM+HMM+NGRAM)概述
春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别).部门起了个新项目,要用到语音识别(准备基于Kaldi来做).我们之前做的传统音频已基本成熟 ...
04(2) 基于上下文相关的GMM-HMM声学模型2之参数共享
1.三音素建模存在的问题问题一:很多三音素在训练数据中没有出现(尤其跨词三音素) 问题二:在训练数据中出现过的三音素有相当一部分出现的频次较少因此,三音素模型训练时存在较严重的数据不足问题 2.参 ...
上下文相关的GMM-HMM声学模型续：参数共享
一.三音素建模存在的问题问题一:很多三音素在训练数据中没有出现(尤其跨词三音素) 问题二:在训练数据中出现过的三音素有相当一部分出现的频次较少因此,三音素模型训练时存在较严重的数据不足问题二.参 ...
kaldi基于GMM的单音素模型训练部分
目录 1. gmm-init-mono 模型初始化 2. compile-train-graghs 训练图初始化 3. align-equal-compiled 特征文件均匀分割 4. gmm-acc ...
理解和使用NT驱动程序的执行上下文
理解Windows NT驱动程序最重要的概念之一就是驱动程序运行时所处的“执行上下文”.理解并小心地应用这个概念可以帮助你构建更快.更高效的驱动程序. NT标准内核模式驱动程序编程的一个重要观念是某个 ...
HMM模型学习笔记（维特比算法）
维特比算法(Viterbi) 维特比算法编辑维特比算法是一种动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中.术语“维特比 ...
ABP Framework：移除 EF Core Migrations 项目，统一数据上下文
原文:Unifying DbContexts for EF Core / Removing the EF Core Migrations Project 目录导读:软件开发的一切都需要平衡动机警 ...
Kaldi阅读并更改代码
Common utilities base/kaldi-common.h 几乎所有Kaldi程序都会include该头文件. 该头文件include了一些其他位于base/目录的头文件,主要提供: 错 ...
Kaldi的BaseLine训练过程
steps/train_mono.sh --nj "$train_nj" --cmd "$train_cmd" data/train data/lang exp ...

随机推荐

canvas刮刮乐游戏等
裁剪 ctx.clip():当前路径外的区域不再绘制 <canvas id="cans" width=500 height=500></canvas> &l ...
python3之Django基础篇
一.Django基础 Django 是用Python开发的一个免费开源的Web框架,可以用于快速搭建高性能,优雅的网站! Django的特点: 强大的数据库功能:拥有强大的数据库操作接口(QueryS ...
idea git 整合使用
1.首先在github网站上新建一个repository 打开https://github.com/ 找到new repository按钮输入repository name 选择public 记录下 ...
外网访问Vmware虚拟机中的某个服务（如http）
如果主机是windowx NAT中隐藏的端口映射,说明一下环境,利用当然是VMnet8网络连接,在虚拟机中架设linux WEB服务器利用WEB默认80端口,IP为192.168.11.10,真实主机 ...
151. Reverse Words in a String翻转一句话中的单词
［抄题］: Given an input string, reverse the string word by word. Example: Input: "the sky is blue& ...
PHP请求ws出现的问题
在SOAPUI中的请求如下: <soapenv:Envelope xmlns:soapenv="http://schemas.xmlsoap.org/soap/envelope/&qu ...
Unity3D 导入aar注意事项
导出供Unity使用的*.aar文件 1)点击“Build -> Build APK”,生成aar文件 2)由于Unity在打包APK时会自动包含自身的classes.jar,所以需使用压缩软件 ...
linux resin 基本站点配置
进入配置文件目录: [root@linuxidc resin-]# cd /usr/local/resin/conf/ 查看都有哪些配置文件: [root@linuxidc conf]# ls app ...
osg探究补充：DatabasePager类简介
简介 DatabasePager类,也就是常说的数据库分页技术,简单来说,就是在进行数据库查找时,有可能满足条件的数据很多,为了提高相应速度我们进行数据查找时进行分页查找与显示,当点击下一页时才会进行 ...
九校联考_24OI——餐馆restaurant
凉心模拟D1T1--最简单的一道题 TAT 餐馆(restaurant) 题目背景铜企鹅是企鹅餐馆的老板,他正在计划如何使得自己本年度收益增加. 题目描述共有n 种食材,一份食材i 需要花ti 小 ...

上下文无关的GMM-HMM声学模型