一、上下文对音素发音的语谱轨迹的影响

受到上下文的影响,同一个音素的发音语谱轨迹不同

为提高识别准确率,对音素建模时应将这种上下文影响考虑在内

二、基于上下文相关的音素建模

注意,非单音素建模中,每个模型依旧代表一个音素,只是考虑了这个音素的上下文关系而已

(一)双音素diphones

考虑上个音素/下个音素对当前音素的影响

对于ROCK:

两个??分别取决于ROCK的前一个单词的最后一个音素和后一个单词的第一个音素

灰色的边界单元为邻近单词所共享

为语法/词序列中观察到的前后音素的每个组合构建单独的基于双音素的单词模型,

因此,同一个单词对应的单词模型常有多个

有时,根据语法,同一个单词的不同模型的部分可以重叠

由于边界单元为邻近单词所共享,所以不再具有明确识别出的单词级HMM

无法区分哪些双音素是词内,哪些是跨词---单词边界不明确

因此可区分对待词内双音素与跨词双音素---共2xNxN个模型(N为单音素个数)

分别用词内训练数据和跨词训练数据进行训练

(二)三音素triphones

考虑上个音素和下个音素对当前音素的影响

与双音素不同,不存在跨词共享的边界单元

与双音素相同,??与前一个单词和后一个单词相关,同一个单词常对应多个单词模型

有时,根据语法,出现部分重叠

三音素的情况变得更为复杂:

模型数更多,搜索更慢

基于单音素

基于三音素

填料音:背景噪音等,有声填料音:"UM","UH"等

三音素类型:

词内三音素

词首跨词三音素

词尾跨词三音素

单词只有单音素的三音素

(三)多音素nphones

(四)单词vs单音素vs双音素vs三音素vs多音素

1、单词

词汇量大时,为每一个单词建模,导致模型的数量很大,模型很难训练

无法识别训练数据中未出现过的单词---这样的单词实际很多(Zipf定律)

2、单音素

3、双音素

4、三音素---最常用,可通过参数共享控制模型复杂度

三音素数量分布非常接近Zipf定律轨迹

5、多音素

Nphone:

随着N的增大,多音素数量分布轨迹越来越接近Zipf定律,

当N大于3时,相对于收益的增加程度,代价的花费更大,

因此,常使用三音素

三、基于上下文相关的声学模型训练

上下文相关的GMM-HMM声学模型的更多相关文章

  1. 04(1) 基于上下文相关的GMM-HMM声学模型1

    1.上下文对音素发音的语谱轨迹的影响 受到上下文的影响,同一个音素的发音语谱轨迹不同 为提高识别准确率,对音素建模时应将这种上下文影响考虑在内 2.基于上下文相关的音素建模 注意,非单音素建模中,每个 ...

  2. 04(2) 基于上下文相关的GMM-HMM声学模型2之参数共享

    1.三音素建模存在的问题 问题一:很多三音素在训练数据中没有出现(尤其跨词三音素) 问题二:在训练数据中出现过的三音素有相当一部分出现的频次较少 因此,三音素模型训练时存在较严重的数据不足问题 2.参 ...

  3. 上下文相关的GMM-HMM声学模型续:参数共享

    一.三音素建模存在的问题 问题一:很多三音素在训练数据中没有出现(尤其跨词三音素) 问题二:在训练数据中出现过的三音素有相当一部分出现的频次较少 因此,三音素模型训练时存在较严重的数据不足问题 二.参 ...

  4. [源码解析] PyTorch 分布式 Autograd (3) ---- 上下文相关

    [源码解析] PyTorch 分布式 Autograd (3) ---- 上下文相关 0x00 摘要 我们已经知道 dist.autograd 如何发送和接受消息,本文再来看看如何其他支撑部分,就是如 ...

  5. 语音识别传统方法(GMM+HMM+NGRAM)概述

    春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别).部门起了个新项目,要用到语音识别(准备基于Kaldi来做).我们之前做的传统音频已基本成熟 ...

  6. kaldi基于GMM的单音素模型 训练部分

    目录 1. gmm-init-mono 模型初始化 2. compile-train-graghs 训练图初始化 3. align-equal-compiled 特征文件均匀分割 4. gmm-acc ...

  7. HMM拓扑与转移模型

        <Topology> <TopologyEntry> <ForPhones> 1 2 3 4 5 6 7 8 </ForPhones> < ...

  8. JavaScript的执行上下文

    在JavaScript的运行过程中,经常会遇到一些"奇怪"的行为,不理解为什么JavaScript会这么工作. 这时候可能就需要了解一下JavaScript执行过程中的相关内容了. ...

  9. Execution Contexts (执行上下文)

    本章我们一起讨论一下ECMAScript的执行上下文及相关可执行代码的各种类型.so...什么是执行上下文?我们来看看定义: 每次当控制器转到ECMAScript可执行代码的时候, 即会进入到一个执行 ...

随机推荐

  1. Python10/22--面向对象编程/类与对象/init函数

    类: 语法: class关键字 类名# 类名规范 大写开头 驼峰命名法class SHOldboyStudent: # 描述该类对象的特征 school = "上海Oldboy" ...

  2. 2019.01.20 bzoj3999: [TJOI2015]旅游(树链剖分)

    传送门 树链剖分菜题. 题意不清差评. 题意简述(保证清晰):给一棵带权的树,每次从aaa走到bbb,在走过的路径上任意找两个点,求后访问的点与先访问的点点权差的最大值. 思路: 考虑暴力:维护路径的 ...

  3. Educational Codeforces Round 51 D. Bicolorings(dp)

    https://codeforces.com/contest/1051/problem/D 题意 一个2*n的矩阵,你可以用黑白格子去填充他,求联通块数目等于k的方案数,答案%998244353. 思 ...

  4. sprintf()与sscanf()

    1.sprintf() sprintf()用于向字符串中写入格式化的数据,eg: int dSrc1 = 1; int dSrc2 = 2; char str[] = "hello" ...

  5. C++编译器详解(三)函数调用的区别:_cdecl以及_stdcall

    1._stdcall是Pascal程序的缺省调用方式,通常用于Win32 API中,函数采用从右到左的压栈方式,自己在退出时清空堆栈.VC将函数编译后会在函数名前面加上下划线前缀,在函数名后加上&qu ...

  6. 【1】jQuery异步(Ajax)操作之JSONP [转]

     前言: 说到AJAX就会不可避免的面临两个问题,第一个是AJAX以何种格式来交换数据?第二个是跨域的需求如何解决?这两个问题目前都有不同的解决方案,比如数据可以用自定义字符串或者用XML来描述,跨域 ...

  7. Mustache应用——渲染二级菜单

    一.菜单的样式 如上图所示,菜单一共两级.一级菜单的父结点都为0,二级菜单的父结点是前结点的code. code:为每一个结点独一无二的标识,也可以认为是ID. 二.菜单的数据结构 编写菜单的结构,采 ...

  8. python advanced programming (Ⅲ)

    IO编程 IO在计算机中指Input/Output.由于程序和运行时数据是在内存中驻留,由CPU来执行,涉及到数据交换的地方,通常是磁盘.网络等,就需要IO接口. IO编程中,Stream(流)是一个 ...

  9. input的type=file触发的相关事件

    与input相关的事件运行的过程.添加了一些相关的方法测试了一下.input的type=file的运行流程. 我们书写了mousedown,mouseup,click,input,change,foc ...

  10. express package.json解析

    教程:http://www.tuicool.com/articles/vuiyIz