DNN声学模型说话人自适应的经验性评估 年3月27日 发表于:Sound (cs.SD); Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)     说话人自适应时从说话人无关模型中估计一个说话人相关的声学模型,以减小训练集与测试集由于说话人差异导致的不匹配.     已经出现了许多DNN自适应方法,但是缺乏实验比较.     声学模型采用TDNN-LSTM声学模型.     自适应源时标准中文普通话声…
单声道语音识别的逐句循环Dropout迭代说话人自适应     WRBN(wide residual BLSTM network,宽残差双向长短时记忆网络) [2] J. Heymann, L. Drude, and R. Haeb-Umbach, "Wide residual blstm network with discriminative speaker adaptation for robust speech recognition," submitted to the CHi…
An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 2018-05-16 16:09:15 Introduction: 本文提出一种 TCN (Temporal Convolutional Networks) 网络结构,用卷积的方式进行序列数据的处理,并且取得了和更加复杂的 RNN.LSTM.GRU 等模型相当的精度. Temporal Convolutiona…
Predicting effects of noncoding variants with deep learning–based sequence model PDF Interpreting noncoding variants- 非常好的学习资料 这篇文章的第一个亮点就是直接从序列开始分析,第二就是使用深度学习获得了很好的预测效果. This is, to our knowledge, the first approach for prioritization of functional…
论文地址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-5.pdf 基于GAN的回声消除 摘要 生成对抗网络(GANs)已成为语音增强(如噪声抑制)中的热门研究主题.通过在对抗性场景中训练噪声抑制算法,基于GAN的解决方案通常会产生良好的性能.在本文中,提出了卷积循环GAN架构(CRGAN-EC),以解决线性和非线性回声情况.所提出的体系结构在频域中进行了训练,并预测了目标语音的时频(TF)掩码.部署了几种度量损失函数,并研究了它们…
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要 本文研究了利用深度神经网络及逆行自动语音识别(ASR)的语音模型,其输入是直接输入窗口形语音波(WSW).本文首先证明了,网络要实现自动化需要具有于梅尔频谱相类似的特征,(梅尔频谱是啥?参考,https://blog.csdn.net/qq_28006327/article/details/59129110),本文研究了挖掘…
The biggest difference between LES and RANS is that, contrary to LES, RANS assumes that \(\overline{u'_i} = 0\) (see the Reynolds-averaged Navier–Stokes equations). In LES the filter is spatially based and acts to reduce the amplitude of the scales o…
论文通过实现RNN来完成了文本分类. 论文地址:88888888 模型结构图: 原理自行参考论文,code and comment: # -*- coding: utf-8 -*- # @time : 2019/11/9 15:12 import numpy as np import torch import torch.nn as nn import torch.optim as optim from torch.autograd import Variable dtype = torch.F…
论文地址:https://ieeexplore.ieee.org/abstract/document/9306224 基于RNN的回声消除 摘要 本文提出了一种基于深度学习的语音分离技术的回声消除方法.传统上,AEC使用线性自适应滤波器来识别麦克风和扬声器之间的声脉冲响应.然而,当传统方法遇到非线性条件时,处理的结果并不理想.我们的实践利用了深度学习技术的优势,这有利于非线性处理.在所采用的RNN系统中,与传统的语音分离方法不同,我们增加了单讲特征,并为每个元素分配特定的权重.实验结果表明,该方…
1. cv2.dnn.readNetFromCaffe(prototxt, model)  用于进行SSD网络的caffe框架的加载 参数说明:prototxt表示caffe网络的结构文本,model表示已经训练好的参数结果 2.t=delib.correlation_tracker() 使用delib生成单目标的追踪器 3.delib.rectangle(int(box[0]), int(box[1]), int(box[2]), int(box[3])) 用于生成追踪器所需要的矩形框[(st…