论文地址:单耳语音增强的时频注意

引用格式:Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7852-7856.


摘要

  大多数语音增强研究通常没有明确考虑语音在时频(t -f)表示中的能量分布,这对于准确预测掩模或频谱具有重要意义。在本文中,我们提出了一个简单而有效的T-F注意(TFA)模块,该模块产生了一个二维attention map,为T-F表示的谱分量提供了差异化的权重。为了验证我们提出的TFA模块的有效性,我们使用残差时间卷积网络(ResTCN)作为骨干网络,并在两个常用的训练目标上进行了广泛的实验。我们的实验表明,应用我们的TFA模块在五个客观评价指标方面显著提高性能,而参数开销可以忽略不计。评估结果表明,提出的带TFA模块的ResTCN (ResTCN+TFA)始终在很大程度上优于其他基线。

索引术语:语音增强,时频注意,能量分布,时间卷积网络(temporal convolutional network)

1  引用

  语音增强是指在存在背景噪声的情况下对语音信号进行增强。它是许多语音处理应用的基本组成部分,如自动语音识别、说话人识别、助听器和电话会议。基于统计模型的语音增强[1-3]已经被广泛研究了几十年,该方法对平稳噪声有很好的增强效果,但对非平稳噪声[4]的增强效果不佳。

  基于监督深度学习的语音增强技术已经取得了显著的进展。根据对输入信号的处理方式,现有方法可以分为两类。时域方法直接对语音波形进行语音增强,其中DNN被优化以学习从带噪语音波形到纯净语音波形的映射[5,6]。时频域(T-F)域方法通常训练DNN预测纯净语音或T-F掩码的频谱表示。目前最流行的T-F掩模包括理想比例掩模(IRM)[7]、相敏掩模(PSM)[8]和复数IRM (cIRM)[9]。在本研究中,我们采用IRM和PSM进行语音增强。

  在早期的研究中,多层感知器(MLPs)是应用最广泛的架构,但它们在捕获长期依赖方面存在局限性。为了克服这一局限性,Chen等人[10]采用四层长短期记忆(LSTM)的递归神经网络(RNN)进行语音增强,明显优于MLPs。然而,LSTM网络的训练过程缓慢而复杂,并且需要大量的参数,这严重限制了它的适用性。最近,利用扩张卷积和剩余跳跃连接的剩余时间卷积网络(ResTCNs)[11]在建模长期依赖关系方面表现出了令人印象深刻的性能,并在语音增强方面取得了相当大的成功[12 14]。近年来,基于自注意的Transformer[15]模型已成功地应用于语音增强和许多其他与语音处理相关的任务,因为它们具有捕获远程依赖关系的能力。

  现有的模型主要关注如何有效地对长程依赖进行建模,而一般忽略了T-F表示中语音的能量分布特征,而T-F表示对语音增强同样重要。注意力机制[16 18]已被充分研究,以了解什么对学习任务是重要的。受注意力的启发,我们提出了一种新的结构单元,称为T-F注意力(TFA)模块,用于模拟语音的能量分布。具体而言,TFA模块由两个平行的注意分支组成,即时间维(TA)和频率维(FA)[19],它们产生两个1-D attention map,分别指导模型关注何处(哪个时间框架)和什么(哪个频率通道)。结合TA和FA模块生成二维注意力图,使模型能够捕捉T-F域的语音分布。为了验证这一想法,我们使用最新的ResTCN架构作为骨干网络,并采用两个代表性的训练目标(将在第2节中讨论)进行广泛的实验。

  本文的其余部分组织如下。第二节介绍了T-F域语音增强技术。在第3节中,我们描述了拟议的网络。第4节介绍了实验装置和评估结果。第5部分对本文进行了总结。

2  问题公式化

  在短时傅里叶变换(STFT)域中,带噪语音可以被建模为纯净语音和加性噪声的组合

$$公式1:X[l,k]=S[l,k]+D[l,k]$$

其中$X[l,k]$, $S[l, k]$和$D[l, k]$分别表示带噪语音、纯净语音和噪声在时间帧$l$和频率bin $k$的STFT系数。对于有监督的语音增强,通常训练DNN来预测预先设计的训练目标。然后应用该结果重建纯净的语音。为了验证我们提出的TFA模块的有效性,我们采用两个广泛使用的训练目标进行广泛的增强实验。详情如下:

  理想比值掩模( ideal ratio mask,IRM)[7]的定义为:

$$公式2:\operatorname{IRM}[l, k]=\sqrt{\frac{|S[l, k]|^{2}}{|S[l, k]|^{2}+|D[l, k]|^{2}}}$$

式中$|S[l, k]|$和$|D[l, k]|$分别为纯净语音和噪声的频谱大小。

  相敏掩模(phase-sensitive mask,PSM)[8]是根据纯净和带噪语音的STFT幅值定义的。引入一个相位误差项来补偿对带噪声语音相位的利用

$$公式3:\operatorname{PSM}[l, k]=\frac{|S[l, k]|}{|X[l, k]|} \cos \left[\theta_{S[l, k]-X[l, k]}\right]$$

式中$\theta_{S[l,k]-X[l,k]}$表示纯净语音与带噪语音之间的相位差。PSM被截断到0到1之间,以拟合sigmoid激活函数的输出范围。

3  TF-Attention的语音增强

3.1  网络结构

  图1(a)展示了ResTCN骨干网[12]的结构,它以带噪语音$|X|]\in R^{L*K}$的STFT幅值作为输入。输出层为全连接层,具有sigmoidal激活函数,产生输出掩码 (IRM或PSM)。图1(b)显示了我们如何将TFA模块插入到ResTCN块中。ResTCN块(如图1 (a)的黑色虚线框所示)包含三个1-D因果扩张卷积单元。每个卷积单元中的参数表示为kernel size、filter nums和dilation rate。循环dilation rate为块索引$b=\{1,2,3,...B\}$增大:$d=2^{(b-1mod(log_2(D)+1))}$,其中mod为取模运算,D = 16为最大dilation rate。每个卷积单元都采用预激活设计,其中输入通过frame-wise alization (LN)和ReLU激活函数进行预激活。

图1所示  (a) ResTCN骨干网和(b)我们提出的带有TFA模块的ResTCN块

3.2  TF注意力模块

图2所示。我们提出的TFA模块示意图,其中TA和FA模块分别显示在黑色和蓝色的点框中。AvgPool和Conv1D分别表示平均池化和1-D卷积操作。$\otimes $和$\odot $分别表示矩阵乘法和元素级积

  在图2中,我们说明了提出的TFA模块。我们将变换后的T-F表示Y RL dmodel作为L帧和dmodel频率通道的输入。TFA利用两个分支并行生成1- d频率维attention map FA R1 dmodel和1- d时间帧attention map TA RL 1,再结合矩阵乘法得到最终的2-D T-Fattention map TFA RL dmodel。改进后的输出写为

$$公式4:\tilde{\mathbf{Y}}=\mathbf{Y} \odot \mathbf{T F}_{\boldsymbol{A}}$$

其中$\odot $表示逐元素乘积。下面给出了提议的 TFA 的详细描述。

  语音在时间和频率维度上的能量分布是生成准确attention map的关键。每个Attention分支生成attention map分两步:全局信息聚合和Attention生成。具体来说,FA模块在给定的输入Y上沿时间维度进行全局平均池化,并生成frequency-wise统计$Z_F\in R^{1*d_{model}}$,公式为:

$$公式5:\mathbf{Z}_{\mathbf{F}}(k)=\frac{1}{L} \sum_{l=1}^{L} \mathbf{Y}(l, k)$$

其中$Z^F(k)$是$Z_F$的第k个元素,同样的,TA模块沿着输入X的频率维度进行全局平均池化,并生成一个基于time-frame-wise的统$Z_T\in R^{L*1}$。$Z_T$的第$l$个元素可以写成:

$$公式6:\mathbf{Z}_{\mathbf{T}}(l)=\frac{1}{d_{\text {model }}} \sum_{k=1}^{d_{\text {model }}} \mathbf{Y}(l, k)$$

  两个统计量$Z_T$和$Z_F$分别可以看作是语音能量在时间维度和频率维度上的分布。为了充分利用这两种描述符产生准确的Attention权值,我们堆叠两个一维卷积层$k_{tfa}=17$作为非线性变换函数。FA模块的Attention具体计算为

$$公式7:\mathbf{F}_{\mathbf{A}}=\sigma\left(f_{2}^{F A}\left(\delta\left(f_{1}^{F A}\left(\mathbf{Z}_{\mathbf{F}}\right)\right)\right)\right)$$

式中$f$为1-D卷积运算,$\delta$和$ \sigma $分别为ReLU和sigmoid激活函数。在TA模块中采用相同的计算过程生成Attention map:

$$公式8:\mathbf{T}_{\mathbf{A}}=\sigma\left(f_{2}^{T A}\left(\delta\left(f_{1}^{T A}\left(\mathbf{Z}_{\mathbf{T}}\right)\right)\right)\right)$$

然后,将从两个注意分支获得的Attention map与张量乘法相结合,产生最终的2-D Attention map TFA

$$公式9:\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}} \otimes \mathbf{F}_{\mathbf{A}}$$

其中$\otimes $表示张量乘法运算。最终二维 Attention map TFA的计算公式为:

$$公式10:\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}}(l)*\mathbf{F}_{\mathbf{A}}(l)$$

其中$T_A(l)$和$F_A(k)$分别表示$T_A$的第$l$个元素,和$F_A$的第k个元素。

4  实验

4.1  数据集和特征提取

  我们使用Librispeech[20]语料库中的train-clean-100作为训练集中的纯净语音,包括251个说话人的28539个语音。训练集中使用的噪声来自以下数据集:QUT-NOISE数据集[21],非语音数据集[22],环境背景噪声数据集[23,24],RSG-10数据集[25](语音babble, F16,和工厂焊接除外进行测试),Urban Sound数据集[26](街头音乐记录no.[26])。26 270被排除用于测试)、MUSAN语料库[27]的噪声集和彩色噪声(α值从2到2,以0.25为增量)。总共有6 909个噪音。对于验证集,我们随机选择1 000条纯净的语音和噪音录音(不替换),并将其从前述的纯净语音和噪音集中移除。每个纯净语音与一个噪声记录的随机部分混合,随机信噪比在-10 dB到20 dB之间,以1dB的增量产生1 000个噪声语音作为验证集。对于测试集,我们使用从RSG-10数据集[25]和Urban Sound数据集[26]中排除的四种真实世界的噪音记录(嘈杂声、F16、工厂焊接和街头音乐)。从Librispeech语料库[20]的test-clean-100中随机选择10条纯净的语音录音(没有替换),对每一条录音进行以下信噪比级别的混合:{-5 dB, 0 dB, 5 dB, 10 dB, 15 dB}。这将生成一个包含200段带噪声语音录音的测试集。所有纯净的语音和噪声录音都是单通道的,采样频率为16khz。

  采用平方根-Hann窗函数进行谱分析和合成,帧长为32 ms,帧移为16 ms。带噪语音的257频点作为输入,该幅谱包含直流频率分量和奈奎斯特频率分量。

4.2  实验步骤

  使用ResTCN模型作为基准骨干来验证我们的TFA模块的有效性。此外,我们还采用了两个最新的模型作为基线,即具有自我注意的ResTCN (ResTCN+SA)[28]和多头自我注意网络(MHANet)[29]。ResTCN基线使用以下参数,如[12],k = 3, $d_{model}$= 256, $d_f$ = 64, B = 40。ResTCN+SA[28]采用多头自我注意模块产生动态表示,然后采用ResTCN模型(采用B = 40个堆叠基线的ResTCN块构建ResTCN模型进行公平比较)进行非线性映射。MHANet模型[29]使用5层堆叠的Transformer编码器[15]进行语音增强,参数设置如[29]。为了验证TFA模块中FA和TA成分的有效性,我们进行了消融研究,其中使用FA和TA的ResTCN(称为ResTCN+FA和ResTCN+TA)被评估。

  训练方法:每个训练迭代使用10个mini batch的带噪语音。带噪语音信号的创建方法如下:为mini batch选择的每个纯净语音与随机选择的噪声的随机部分混合,信噪比随机选择(-10 dB到20 dB,以1 dB的增量)。以目标掩模与估计掩模之间的均方误差(MSE)为目标函数。对于ResTCN、ResTCN+SA和提出的模型,使用默认超参数[30]和学习率0.001的Adam优化器进行梯度下降优化。由于MHANet难以训练[29,31],我们采用[29]中的训练策略。梯度裁剪应用于所有模型,其中梯度裁剪在[-1,1]之间。

4.3  训练和验证误差

  图3-4给出了每个模型对150 epoch训练产生的训练和验证误差曲线。可以看到,与ResTCN相比,带有我们提出的TFA的ResTCN (ResTCN+TFA)产生了显著较低的训练和验证错误,这证实了TFA模块的有效性。同时,与ResTCN+SA和MHANet相比,ResTCN+TFA的训练和验证误差最低,具有明显的优越性。在三条基线中,MHANet性能最好,ResTCN+SA优于ResTCN。此外,通过对ResTCN、ResTCN+FA和ResTCN+TA的比较,验证了TA和FA模块的有效性。

图3所示。训练误差(a)和验证误差(b)在IRM训练目标上的曲线

图4所示。训练误差(a)和验证误差(b)在PSM训练目标上的曲线

4.4  结果和讨论

  本研究采用5个指标广泛评估增强性能,包括宽带语音质量感知评价(PESQ)[32]、扩展短时间目标可理解性(esti)[33]和3个复合指标[34],即信号失真的平均意见评分(MOS)预测指标(CSIG)、背景噪声入侵(CBAK)和整体信号质量(COVL)。

  表1和2分别给出了每个信噪比水平(横跨四个噪声源)的平均PESQ和esti得分。评估结果表明,我们提出的ResTCN+TFA在IRM和PSM上的PESQ和ESTOI均比ResTCN取得了显著的改进,参数开销可以忽略不计,证明了TFA模块的有效性。例如,在5 dB SNR的情况下,带IRM的ResTCN+TFA在PESQ上提高了基线ResTCN 0.18,在ESTOI上提高了4.94%。与MHANet和ResTCN+SA相比,ResTCN+TFA在所有情况下均表现出最佳性能,表现出明显的性能优势。在三条基线中,总体而言,绩效排名依次为MHANet >ResTCN + SA>ResTCN。同时,ResTCN+FA和ResTCN+TA也在ResTCN的基础上做了较大的改进,这也验证了FA和TA模块的有效性。表3列出了所有测试条件下CSIG、CBAK和COVL的平均得分。表1和表2中也观察到了类似的性能趋势。同样,我们提出的ResTCN+TFA在三个指标上明显优于ResTCN,并且在所有模型中表现最好。平均而言,与ResTCN+TFA和PSM相比,CSIG提高了0.21,CBAK提高了0.12,COVL提高了0.18。与MHANet相比,采用PSM的ResTCN+TFA使CSIG提高0.12,CBAK提高0.08,COVL提高0.11。

5  结论

  在本研究中,我们提出了一种轻量级和灵活的注意单元,称为TFA模块,旨在模拟T-F表示中语音的能量分布。在两个训练目标(IRM和PSM)上以ResTCN为骨干的大量实验证明了所提出的TFA模块的有效性。在所有的模型中,我们提出的ResTCN+TFA始终表现最佳,并在所有情况下显著优于其他基线。未来的研究工作包括调查TFA在更多架构(例如最近的Transformer)和更多培训目标上的有效性。

参考文献

[1] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2013.

[2] Q. Zhang, M. Wang, Y. Lu, L. Zhang, and M. Idrees, A novel fast nonstationary noise tracking approach based on mmse spectral power estimator, Digital Signal Processing, vol. 88, pp. 41 52, 2019.

[3] Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoust. , Speech, Signal Process. , vol. ASSP-32, no. 6, pp. 1109 1121, Dec. 1984.

[4] Q. Zhang, M. Wang, Y. Lu, M. Idrees, and L. Zhang, Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging, IEEE Access, vol. 7, pp. 80 985 80 999, 2019.

[5] S. Pascual, A. Bonafonte, and J. Serr`a, SEGAN: Speech enhancement generative adversarial network, Proc. INTERSPEECH, pp. 3642 3646, 2017.

[6] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 8, pp. 1256 1266, 2019.

[7] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 22, no. 12, pp. 1849 1858, 2014.

[8] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in Proc. ICASSP, 2015, pp. 708 712.

[9] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 3, pp. 483 492, 2015.

[10] J. Chen and D. Wang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[11] S. Bai, J. Z. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018.

[12] Q. Zhang, A. Nicolson, M. Wang, K. K. Paliwal, and C. Wang, DeepMMSE: A deep learning approach to mmse-based noise power spectral density estimation, IEEE/ACM Trans. Audio,  speech, Lang. Process. , vol. 28, pp. 1404 1415, 2020.

[13] K. Tan, J. Chen, and D. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 1, pp. 189 198, 2018.

[14] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in Proc. ICASSP, 2019, pp. 6875 6879.

[15] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, Attention is all you need, in Proc. NIPS, 2017, pp. 5998 6008.

[16] J. Hu, L. Shen, and G. Sun, Squeeze-and-excitation networks, in Proc. CVPR, 2018, pp. 7132 7141.

[17] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, CBAM: Convolutional block attention module, in Proc. ECCV, 2018, pp. 3 19.

[18] V. A. Trinh, B. McFee, and M. I. Mandel, Bubble cooperative networks for identifying important speech cues, Interspeech 2018, 2018.

[19] Q. Zhang, Q. Song, A. Nicolson, T. Lan, and H. Li, Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech Enhancement, in Proc. Interspeech 2021, 2021, pp. 166 170.

[20] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an asr corpus based on public domain audio books, in Proc. ICASSP, 2015, pp. 5206 5210.

[21] D. B. Dean, S. Sridharan, R. J. Vogt, and M. W. Mason, The QUT-NOISE-TIMIT corpus for the evaluation of voice activity detection algorithms, in Proc. INTERSPEECH, 2010.

[22] G. Hu, 100 nonspeech environmental sounds, The Ohio State University, Department of Computer Science and Engineering, 2004.

[23] F. Saki, A. Sehgal, I. Panahi, and N. Kehtarnavaz, Smartphone-based real-time classification of noise signals using subband features and random forest classifier, in Proc. ICASSP, 2016, pp. 2204 2208.

[24] F. Saki and N. Kehtarnavaz, Automatic switching between noise classification and speech enhancement for hearing aid devices, in Proc. EMBC, 2016, pp. 736 739.

[25] H. J. Steeneken and F. W. Geurtsen, Description of the rsg-10 noise database, report IZF, vol. 3, p. 1988, 1988. [26] J. Salamon, C. Jacoby, and J. P. Bello, A dataset and taxonomy for urban sound research, in Proc. ACM-MM, 2014, pp. 1041 1044.

[27] D. Snyder, G. Chen, and D. Povey, MUSAN: A music, speech, and noise corpus, arXiv preprint arXiv:1510.08484, 2015.

[28] Y. Zhao, D. Wang, B. Xu, and T. Zhang, Monaural speech dereverberation using temporal convolutional networks with self attention,  IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 28, pp. 1598 1607, 2020.

[29] A. Nicolson and K. K. Paliwal, Masked multi-head selfattention for causal speech enhancement, Speech Communication, vol. 125, pp. 80 96, 2020.

[30] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014. [31] L. Liu, X. Liu, J. Gao, W. Chen, and J. Han, Understanding the difficulty of training transformers, in Proc. EMNLP, 2020, pp. 5747 5763.

[32] R. I.-T. P. ITU, 862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs. ITU-Telecommunication standardization sector, 2007.

[33] J. Jensen and C. H. Taal, An algorithm for predicting the intelligibility of speech masked by modulated noise maskers, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 11, pp. 2009 2022, 2016.

[34] Y. Hu and P. C. Loizou, Evaluation of objective quality measures for speech enhancement, IEEE Trans. Audio, Speech, Lang. process. , vol. 16, no. 1, pp. 229 238, 2007.

论文翻译:2022_Time-Frequency Attention for Monaural Speech Enhancement的更多相关文章

  1. 论文翻译:2020_A Recursive Network with Dynamic Attention for Monaural Speech Enhancement

    论文地址:基于动态注意的递归网络单耳语音增强 论文代码:https://github.com/Andong-Li-speech/DARCN 引用格式:Li, A., Zheng, C., Fan, C ...

  2. 论文翻译:2021_DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering

    论文地址:DeepFilterNet:基于深度滤波的全频带音频低复杂度语音增强框架 论文代码:https://github.com/ Rikorose/DeepFilterNet 引用:Schröte ...

  3. 论文翻译:2020_FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions

    论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强 论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式 ...

  4. 论文翻译:2021_Decoupling magnitude and phase optimization with a two-stage deep network

    论文地址:两阶段深度网络的解耦幅度和相位优化 论文代码: 引用格式:Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression chal ...

  5. 论文翻译:Fullsubnet: A Full-Band And Sub-Band Fusion Model For Real-Time Single-Channel Speech Enhancement

    论文作者:Xiang Hao, Xiangdong Su, Radu Horaud, and Xiaofei Li 翻译作者:凌逆战 论文地址:Fullsubnet:实时单通道语音增强的全频带和子频带 ...

  6. 论文翻译:2020_WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement

    论文地址:用于端到端语音增强的卷积递归神经网络 论文代码:https://github.com/aleXiehta/WaveCRN 引用格式:Hsieh T A, Wang H M, Lu X, et ...

  7. 论文翻译:2022_PACDNN: A phase-aware composite deep neural network for speech enhancement

    论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络 引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware compo ...

  8. 论文翻译:2020_Densely connected neural network with dilated convolutions for real-time speech enhancement in the time domain

    提出了模型和损失函数 论文名称:扩展卷积密集连接神经网络用于时域实时语音增强 论文代码:https://github.com/ashutosh620/DDAEC 引用:Pandey A, Wang D ...

  9. 论文翻译:2021_Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss

    论文地址:使用感知动机目标和损失的低延迟语音增强 引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Per ...

随机推荐

  1. vc2010以及VS2019安装使用教程

    一.vc2010的安装教程. ①下载(由于是一个离线文件,可关注后找我) ②下载好并解压安装文件后,打开解压后的文件进行运行安装. 点击"setup"根据提示安装即可. ③安装后点 ...

  2. 虚拟机:ESX

    VMware ESXi 与ESX 产品之比较   VMware vSphere 5.0 以后版本,所有底层虚拟化产品都改为ESXi产品,本文主要比较了ESXi与ESX的各自特点,以便对大家是否要把现有 ...

  3. 项目中导入本地jar包问题

    1. 问题 一个Maven项目,需要依赖一个本地jar包,以如下方式引用: <dependency> <groupId>xxx.sdk</groupId> < ...

  4. 定制ASP.NET 6.0的应用配置

    大家好,我是张飞洪,感谢您的阅读,我会不定期和你分享学习心得,希望我的文章能成为你成长路上的垫脚石,让我们一起精进. 本文的主题是应用程序配置.要介绍的是如何使用配置.如何自定义配置,以采用不同的方式 ...

  5. 给小白的 PG 容器化部署教程(下)

    作者:王志斌 编辑:钟华龙 本文来自社区小伙伴 王志斌 的投稿.从小白的角度,带你一步步实现将 RadonDB PostgreSQL 集群部署到 Kubernetes 上.文章分为上下两部分,< ...

  6. k8s client-go源码分析 informer源码分析(5)-Controller&Processor源码分析

    client-go之Controller&Processor源码分析 1.controller与Processor概述 Controller Controller从DeltaFIFO中pop ...

  7. 一个支持数据绑定与数据联动的Dashboard

    什么是仪表盘 仪表盘是不同部件的组合,可以在一个页面集中显示各类信息,方便用户集中查看信息.并快速处理业务 关于制作部件,请参见:制作部件 CabloyJS仪表盘的特点 更灵活的自适应能力,可以针对m ...

  8. 《ECMAScript 6 入门》【一、let、const命令】(持续更新中……)

    前言: 我们在ES5都使用var来声明常量跟变量,ES6使用了最新的语法,使用let跟const分别声明.一.let命令: let命令是用于声明变量块级作用域 1. { let a = 10; var ...

  9. 重学ES系列之Set实现数组去重、交集、并集、差集

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  10. NC15163 逆序数

    NC15163 逆序数 题目 题目描述 在一个排列中,如果一对数的前后位置与大小顺序相反,即前面的数大于后面的数,那么它们就称为一个逆序.一个排列中逆序的总数就称为这个排列的逆序数.比如一个序列为 \ ...