Factorized Hidden Variability Learning For Adaptation Of Short Duration Language Identification Models
基于因子分解的隐层变量学习,应用于短语句语种识别模型的自适应
LFVs(Language Feature Vectors,语种特征向量)[11],与BSVs(Bottleneck Speaker Vectors)类似,即瓶颈特征
3.1. 神经元调制
由于说话人特性的变化反映在语音信号中,因此将表示说话人适应声学特性的特征拼接到特征中。如VTLN或fMLLR,是直接对声学特征进行操作的自适应方法。可以训练一个说话人自适应系统以基于说话人属性直接对输入特征进行转换,这样效果与基于i-Vector的自适应类似[8]。但是与说话人变化特性相比,语言特性是更高阶的概念。在某些方面基于声学。例如,具有相同音素的多种语言,可以在某种程度上可以观察到语言特定属性。但是,声学特征变换适应性方法无法考虑到音位配列学或者不同声学单元集的知识。在这里,在更深层次的DNN处添加特征可能会改善自适应性。[17]基于Meta-PI网络进行了尝试。关键点是使用Meta-PI连接,它允许通过将隐层单元乘以系数来调制神经元的输出。应用于语种自适应,我们用LFV来对隐藏层的输出进行调制。基于语种特征的调制,LSTM单元的输出被衰减或增强。这迫使隐藏层中的单元基于语种特征来学习或适应。调制可以被认为与Dropout有关[18],其中网络连接以随机概率被丢弃。在结果部分中,我们将此方法称为"LFV调制"。
所示的网络配置。基本架构受百度Deepspeech 2的启发。它将两个TDNN/CNN层与4个双向LSTM层组合在一起。输出层是一个前馈层,它将最后一个LSTM层的输出映射到目标。将每层LSTM单元维数设定为LFV维数的数倍。这样就可以构建包含相同单位数量的LSTM单元的隐藏层组。然后用LFV的某一维对每组的输出进行调制。该图显示了两种配置,"LFV 拼接"和"LFV 调制",但一次只应用一种方法。在初步实验中,我们得出在第二个LSTM层的输出处进行调制可以获得最佳性能。

Factorized Hidden Variability Learning For Adaptation Of Short Duration Language Identification Models的更多相关文章
- Coursera Deep Learning笔记 序列模型(三)Sequence models & Attention mechanism(序列模型和注意力机制)
参考 1. 基础模型(Basic Model) Sequence to sequence模型(Seq2Seq) 从机器翻译到语音识别方面都有着广泛的应用. 举例: 该机器翻译问题,可以使用" ...
- ICLR 2013 International Conference on Learning Representations深度学习论文papers
ICLR 2013 International Conference on Learning Representations May 02 - 04, 2013, Scottsdale, Arizon ...
- Machine and Deep Learning with Python
Machine and Deep Learning with Python Education Tutorials and courses Supervised learning superstiti ...
- Deep Learning in a Nutshell: History and Training
Deep Learning in a Nutshell: History and Training This series of blog posts aims to provide an intui ...
- Machine Learning for Developers
Machine Learning for Developers Most developers these days have heard of machine learning, but when ...
- How do I learn machine learning?
https://www.quora.com/How-do-I-learn-machine-learning-1?redirected_qid=6578644 How Can I Learn X? ...
- (转) Ensemble Methods for Deep Learning Neural Networks to Reduce Variance and Improve Performance
Ensemble Methods for Deep Learning Neural Networks to Reduce Variance and Improve Performance 2018-1 ...
- (转)Understanding, generalisation, and transfer learning in deep neural networks
Understanding, generalisation, and transfer learning in deep neural networks FEBRUARY 27, 2017 Thi ...
- Rolling in the Deep (Learning)
Rolling in the Deep (Learning) Deep Learning has been getting a lot of press lately, and is one of t ...
随机推荐
- Spring boot学习笔记之@SpringBootApplication注解
@SpringBootApplication(exclude = SessionAutoConfiguration.class) public class BootReactApplication { ...
- [luogu5077][Tweetuzki 爱等差数列]
题目链接 思路 数学题 首先列出等差数列求和的式子. \[S = \frac{(n + m)(n - m + 1)}{2}(n为末项,m为首项)\] \[S * 2= (n + m)(n - m + ...
- Flask flask_script扩展库
flask_script 1.安装:进入到虚拟环境中,pip install flask_script 2.flask_script 作用:可以通过命令行的形式来操作Flask,例如通过命令跑一个开发 ...
- 关于Java中扫描仪next()与nextLine()的区别
首先,next()一定要读取到有效字符后才可以结束输入,对输入有效字符之前遇到的空格键.Tab键或Enter键等结束符,next()方法会自动将其去掉,只有在输入有效字符之后,next()方法才将其后 ...
- linux系统调用之用户管理
getuid 获取用户标识号 setuid 设置用户标志号 getgid 获取组标识号 setgid 设置组标志号 getegid 获取有效组标识号 setegid 设置有效组标识号 geteuid ...
- double free or corruption错误
这是我自己写代码是遇到的错误,完全想不到报错和写错的地方有关联性,记录下来给别人参考. 不允许转载. WhiteBack(&cut_buff,&out_buff,5)函数内有一段 be ...
- Luogu P2922 [USACO08DEC]秘密消息Secret Message 字典树 Trie树
本来想找\(01Trie\)的结果找到了一堆字典树水题...算了算了当水个提交量好了. 直接插入模式串,维护一个\(Trie\)树的子树\(sum\)大小,求解每一个文本串匹配时走过的链上匹配数和终点 ...
- Java Web 开发必须掌握的三个技术:Token、Cookie、Session
在Web应用中,HTTP请求是无状态的.即:用户第一次发起请求,与服务器建立连接并登录成功后,为了避免每次打开一个页面都需要登录一下,就出现了cookie,Session. Cookie Cookie ...
- SQL Server 序列(SEQUENCE)使用
众所周知,在之前的SQL SERVER版本中,一般采用GUID或者IDENTITY来作为标示符,但是IDENTITY是一个表对象,只能保证在一张表里面的序列,当我们遇到以下情况时, 如上表,我们需要在 ...
- Ajax和Json的介绍(一)
Ajax简介: 优点: 1.Ajax是一种网页开发技术,异步JavaScript和XML;(这样叫的原因是是因为ajax传递数据是用json格式的,而json和xml又类似,都是以键值对,josn是& ...