Delta特征是将mfcc特征(13维)经过差分得到的

它是做了一阶二阶的差分

提取的mfcc特征是13维的

然后通过delta就变成了39维

一阶差分:

D(P(t))=P(t)-P(t-1)

二阶差分:

D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2))

Delta=Δ=差分

voxforge/s5/run.sh:116

rm/s5/run.sh:80

vystadial_cz/s5/run.sh:82

都注释了下一行的训练使用delta+delta-delta特征

在这之前,都运行了

steps/align_si.sh --nj "$train_nj" --cmd "$train_cmd" \

--use-graphs true <data-dir> <lang-dir> <src-dir> <align-dir>

"--use-graphs=true"意思是,使用 <src-dir>中的train graph(在fsts.JOB.gz中)

如果不加上,则默认"use-graphs=false",即用<src-dir>中的tree, final.mdl输入搭配compile-train-graph中生成训练的fst(train graph)

steps/train_deltas.sh是训练一个delta+delta-delta三音素系统(模型)

steps/align_si.sh对delta特征进行apply-cmvn, add-deltas

对lda特征进行apply-cmvn, splice-feats(可选), 用final.mat进行transform-feats

  • delta特征与splice特征的区别

2017/5/20 16:23

[chick](616310753) 16:09:17

delte是显式给出差分

splice是在时间上作扩展

包含了差分信息

但是不是显式给出的,在学习中可能学习不到差分知识,可能学习到别的知识

语音研究生求南(287568706) 16:09:58

delta是同一帧复制多次吗?

[chick](616310753) 16:10:11

上一帧-当前帧

语音识别原理介绍_V1.3_1034.pdf

分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须 将波形作变换。常见的一种变换方法是提取 MFCC 特征,把每一帧波形变成一 个12维向量。这12个点是根据人耳的生理特性提取的,可以理解为这12个点包含 了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中,这一步有很 多细节,比如差分、均值方差规整、高斯化、降维去冗余等,声学特征也不止有 MFCC 这一种,具体就不详述了。

Kaldi的delta特征的更多相关文章

  1. [转]kaldi特征和模型空间转换

    转:http://blog.csdn.net/shmilyforyq/article/details/76807431 博主话:这篇博客是对kaldi官网中Feature and model-spac ...

  2. Kaldi的BaseLine训练过程

    steps/train_mono.sh --nj "$train_nj" --cmd "$train_cmd" data/train data/lang exp ...

  3. wakeup_train运行遇到的问题记录

      运行前需要更改的地方:   1.matlab安装的路径以及matlab的license文件     2.噪声的路径;background.scp,以及噪声文件     3.run.sh文件中一处f ...

  4. Latent Representation Learning For Artificial Bandwidth Extension Using A Conditional Variational Auto-Encoder

    博客作者:凌逆战 论文地址:https://ieeexplore.ieee.xilesou.top/abstract/document/8683611/ 地址:https://www.cnblogs. ...

  5. kaldi 运行voxforge例子

    ---------------------------------------------------------------------------------------------------- ...

  6. [转]Kaldi语音识别

    转:http://ftli.farbox.com/post/kaldizhong-wen-shi-bie Kaldi语音识别 1.声学建模单元的选择 1.1对声学建模单元加入位置信息 2.输入特征 3 ...

  7. 论文笔记:语音情感识别(三)手工特征+CRNN

    一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeec ...

  8. kaldi - Online Audio Server(服务器客户端建立方法-旧版在线解码)

    目录 一.服务器客户端识别系统建立方法 1. Command line to start the server(服务器端启动方式): 2. Command line to start the clie ...

  9. kaldi基于GMM的单音素模型 训练部分

    目录 1. gmm-init-mono 模型初始化 2. compile-train-graghs 训练图初始化 3. align-equal-compiled 特征文件均匀分割 4. gmm-acc ...

随机推荐

  1. 洛谷P1848 书架

    好,我一直以为书架是splay,然后发现还有个优化DP的书架.妃的书架 蓝书和PPT上面都讲了,应该比较经典吧. 题意: 有n个物品,每个都有宽,高. 把它们分成若干段,使得每段的最大值的总和最小.且 ...

  2. 第二十三篇-ubuntu18.04怎么下载播放器以及如何设置默认播放器

    下载播放器 安装命令:sudo apt-get install smplayer再安装解码器: 安装win32codecs包 如果是intel的CPU 代码: sudo apt-get install ...

  3. 第六节,Neural Networks and Deep Learning 一书小节(下)

    4.神经网络可以计算任何函数的可视化证明 神经网络拥有一定的普遍性,即包含一个隐藏层的神经网络可以被用来按照任意给定的精度来近似任何连续函数. 这一章使用一个实例来阐述神经网络是如何来近似一个一元函数 ...

  4. postman 抓包工具charles的使用

    1.直接打开charles,然后,如果有https的话,需要安装证书,然后,设置代理 2.如果不是https的,不需要设置代理,直接抓取就可以 先安装证书: 然后设置代理:               ...

  5. python之路入门篇

    一. Python介绍 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,Guido开始写能够解释Python语言语法的解释器.Python这个名字,来 ...

  6. Python3的第一个程序

    软件:Anaconda Navigator集成开发环境中的Spyder,自带Python,无需单独安装. 注意:Python对缩进和空格敏感,代码必须对齐(包括注释),否则出现错误unexpected ...

  7. AVL平衡二叉树

    AVL树 1.若它的左子树不为空,则左子树上所有的节点值都小于它的根节点值. 2.若它的右子树不为空,则右子树上所有的节点值均大于它的根节点值. 3.它的左右子树也分别可以充当为二叉查找树. 例如: ...

  8. 如何修改const常量值

    总结:这个跟计算机语言类别和编译器有关,本文是在linux环境下说明的. 分两种情况: 1. C语言: 2. C++语言: /*! * \Description: * \author scictor ...

  9. linux driver ------ 字符设备驱动 之 “ 创建设备节点流程 ”

    在字符设备驱动开发的入门教程中,最常见的就是用device_create()函数来创建设备节点了,但是在之后阅读内核源码的过程中却很少见device_create()的踪影了,取而代之的是device ...

  10. 2017-12-15python全栈9期第二天第七节之数字转换成布尔值

    #!/user/bin/python# -*- coding:utf-8 -*-print(bool(2))