上下文相关的GMM-HMM声学模型
一、上下文对音素发音的语谱轨迹的影响
受到上下文的影响,同一个音素的发音语谱轨迹不同
为提高识别准确率,对音素建模时应将这种上下文影响考虑在内

二、基于上下文相关的音素建模
注意,非单音素建模中,每个模型依旧代表一个音素,只是考虑了这个音素的上下文关系而已
(一)双音素diphones
考虑上个音素/下个音素对当前音素的影响

对于ROCK:

两个??分别取决于ROCK的前一个单词的最后一个音素和后一个单词的第一个音素
灰色的边界单元为邻近单词所共享

为语法/词序列中观察到的前后音素的每个组合构建单独的基于双音素的单词模型,
因此,同一个单词对应的单词模型常有多个

有时,根据语法,同一个单词的不同模型的部分可以重叠

由于边界单元为邻近单词所共享,所以不再具有明确识别出的单词级HMM
无法区分哪些双音素是词内,哪些是跨词---单词边界不明确
因此可区分对待词内双音素与跨词双音素---共2xNxN个模型(N为单音素个数)
分别用词内训练数据和跨词训练数据进行训练
(二)三音素triphones
考虑上个音素和下个音素对当前音素的影响

与双音素不同,不存在跨词共享的边界单元
与双音素相同,??与前一个单词和后一个单词相关,同一个单词常对应多个单词模型


有时,根据语法,出现部分重叠

三音素的情况变得更为复杂:
模型数更多,搜索更慢


基于单音素

基于三音素


填料音:背景噪音等,有声填料音:"UM","UH"等


三音素类型:
词内三音素
词首跨词三音素
词尾跨词三音素
单词只有单音素的三音素
(三)多音素nphones

(四)单词vs单音素vs双音素vs三音素vs多音素
1、单词
词汇量大时,为每一个单词建模,导致模型的数量很大,模型很难训练
无法识别训练数据中未出现过的单词---这样的单词实际很多(Zipf定律)


2、单音素



3、双音素



4、三音素---最常用,可通过参数共享控制模型复杂度
三音素数量分布非常接近Zipf定律轨迹



5、多音素

Nphone:
随着N的增大,多音素数量分布轨迹越来越接近Zipf定律,
当N大于3时,相对于收益的增加程度,代价的花费更大,
因此,常使用三音素
三、基于上下文相关的声学模型训练


上下文相关的GMM-HMM声学模型的更多相关文章
- 04(1) 基于上下文相关的GMM-HMM声学模型1
1.上下文对音素发音的语谱轨迹的影响 受到上下文的影响,同一个音素的发音语谱轨迹不同 为提高识别准确率,对音素建模时应将这种上下文影响考虑在内 2.基于上下文相关的音素建模 注意,非单音素建模中,每个 ...
- 04(2) 基于上下文相关的GMM-HMM声学模型2之参数共享
1.三音素建模存在的问题 问题一:很多三音素在训练数据中没有出现(尤其跨词三音素) 问题二:在训练数据中出现过的三音素有相当一部分出现的频次较少 因此,三音素模型训练时存在较严重的数据不足问题 2.参 ...
- 上下文相关的GMM-HMM声学模型续:参数共享
一.三音素建模存在的问题 问题一:很多三音素在训练数据中没有出现(尤其跨词三音素) 问题二:在训练数据中出现过的三音素有相当一部分出现的频次较少 因此,三音素模型训练时存在较严重的数据不足问题 二.参 ...
- [源码解析] PyTorch 分布式 Autograd (3) ---- 上下文相关
[源码解析] PyTorch 分布式 Autograd (3) ---- 上下文相关 0x00 摘要 我们已经知道 dist.autograd 如何发送和接受消息,本文再来看看如何其他支撑部分,就是如 ...
- 语音识别传统方法(GMM+HMM+NGRAM)概述
春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别).部门起了个新项目,要用到语音识别(准备基于Kaldi来做).我们之前做的传统音频已基本成熟 ...
- kaldi基于GMM的单音素模型 训练部分
目录 1. gmm-init-mono 模型初始化 2. compile-train-graghs 训练图初始化 3. align-equal-compiled 特征文件均匀分割 4. gmm-acc ...
- HMM拓扑与转移模型
<Topology> <TopologyEntry> <ForPhones> 1 2 3 4 5 6 7 8 </ForPhones> < ...
- JavaScript的执行上下文
在JavaScript的运行过程中,经常会遇到一些"奇怪"的行为,不理解为什么JavaScript会这么工作. 这时候可能就需要了解一下JavaScript执行过程中的相关内容了. ...
- Execution Contexts (执行上下文)
本章我们一起讨论一下ECMAScript的执行上下文及相关可执行代码的各种类型.so...什么是执行上下文?我们来看看定义: 每次当控制器转到ECMAScript可执行代码的时候, 即会进入到一个执行 ...
随机推荐
- 模块and包
一.模块 1.import 加载的模块四个通用类别 1.使用python编写的py文件 2.已被编译为共享库或者DLL或者C\C++的扩展 3.包好一组模块的包 4.使用c编写并连接到python解释 ...
- IntelliJ IDEA 2017版 spring-boot2.0.访问jsp页面;IDE Springboot JSp 页面访问
1.编译器设置. 生成项目后,点击file 点开Modules 选中main,右键 选择新建文件夹 选中外部 右边添加 选中项目如图: 选好后选OK退出 webapp带点了,就是成功了,在这里建立的J ...
- 剑指offer42:不用加减乘除做加法
分析: (1)十进制加法分三步:(以5+17=22为例) 1. 只做各位相加不进位,此时相加结果为12(个位数5和7相加不进位是2,十位数0和1相加结果是1): 2. 做进位,5+7中有进位,进位的值 ...
- Android 全局搜索条写成自定义控件-曹永思
图文: 1.Android 自定义控件的布局文件 2.编写Android 自定义控件的要处理的逻辑代码(曹永思) 3.在调用自定义控件的 Activity的布局文件中调用Android 称之为控件,控 ...
- 【慕课网实战】Spark Streaming实时流处理项目实战笔记五之铭文升级版
铭文一级: 单节点单broker的部署及使用 $KAFKA_HOME/config/server.propertiesbroker.id=0listenershost.namelog.dirszook ...
- nginx调优操作之nginx隐藏其版本号
1.nginx下载 下载网址:nginx.org 2.解压nginx [root@iZwz9cl4i8oy1reej7o8pmZ soft]# ls nginx-.tar.gz [root@iZwz9 ...
- 开源HIS之C/S选型
客户端/服务的形式是我中爱的,我认可只有这样软件跑起来不会失控.因为你不知道每一个程序员是否足够清醒.但一开始我说过要从基本的应急的门诊收费开始,所以我并不打算一启动就写一个服务,并为之选型:TCP/ ...
- Swift: 用UserDefaults保存复杂对象
一直木有看过这个细节,用UserDefaults是能不能存复杂一点的对象.大家可能都看到过UserDefaults的一个方法setObject: forKey:,用这个方法存过NSDictionary ...
- Libre Office超链接单元格
使用Numbers想实现MS Office中的超链接单元格功能,在网上找了半天,发现没有此功能.伤心.. MAC中安装Libre Office 打开表格类文档 选择需要超链接的单元格,选择“Inser ...
- Maven之java application _HelloWord
maven 是一个项目构建的一个工具; 一.环境的配置; 1.下载maven 解压放在一个路径下为了好找我们就将该文件放在 D:\javaNew\apache-maven-3.3.9 2.配置本地仓 ...