2000_narrowband to wideband conversion of speech using GMM based transformation
论文地址:基于GMM的语音窄带到宽带转换
博客作者:凌逆战
博客地址:https://www.cnblogs.com/LXP-Never/p/12151027.html
摘要
在不改变现有通信网络的情况下,利用窄带语音重建宽带语音是一个很有吸引力的问题。本文提出了一种从窄带语音中恢复宽带语音的新方法。该方法基于高斯混合模型(GMM)将输入语音的窄带频谱包络变换为宽带频谱包络,并采用联合密度估计技术对其参数进行计算。然后利用重构后的谱包络,利用LPC合成器对低频和高频语音信号进行重构。本文还提出了一种基于码字的功率估计方法。客观和主观测试结果均表明,该算法优于传统的码本映射方法。
1 引言
在模拟电话网络和移动通信系统中,语音带宽限制在300Hz - 3.4 kHz范围内。结果,窄带语音的音质不如宽带语音,特别是辅音的可懂度降低。由于人类对宽带语音的偏好,将窄带语音改造成宽带语音显得很有吸引力。
窄带到宽带(NB到WB)语音转换的目的是从窄带语音中重建附加的低频(20hz-300hz)和高频(3.4khz-8khz)信号。重建基于两个假设[1]。一是窄带语音与高、低频段信号密切相关。二是即使重构的低频段和高频段信号不完全准确,也能显著提高感知语音质量。NB到WB语音转换的最大优点是,它在不需要任何额外传输信息的情况下生成增强的宽带语音(盲源频带扩展),从而为现有网络提供向后兼容性。
本文对NB到WB语音转换问题进行了一些尝试,包括基于codebook mapping (码本映射)[1]的方法和统计方法[2]。其主要问题是宽带频谱包络的重构。在码本映射方法中,声学空间由一组离散的模板codevector(码矢)表示。利用窄带码本和宽带码本之间的映射关系重构宽带频谱包络。该方法的局限性在于矢量量化(VQ)过程中对输入窄带谱向量的硬分类,虽然模糊VQ在一定程度上缓解了这一问题[1]。统计方法引入了统计恢复函数(SRF),它只预测基于窄带语音的高频段频谱。虽然统计方法获得了良好的性能,但它需要大量的计算。
众所周知,高斯混合模型(GMM)[3]能有力的表示语音的声学空间,并被成功地用作频谱变换的方法,特别是在说话人转换系统[4][5]中。由于声学空间的连续逼近,GMM提供了平滑的分类索引,避免了不自然的不连续性,从而优于VQ模型。因此,该算法将GMM作为宽带频谱包络重建的工具。
本文组织如下。第二部分介绍了基于GMM的NB到WB语音转换算法。第三部分给出了实验结果,最后得出结论。
2 基于GMM的NB到WB语音转换
本文提出了一种基于GMM的窄带语音重建方法。第一种是基于联合密度估计的GMM的频谱包络重构。将窄带谱向量转换为宽带谱向量的映射函数是最小二乘回归估计。最小二乘回归估计,简称回归,是由一对训练语音(窄带和宽带)得到的。第二步是生成低频带和高频带信号。 在本文中,与码本映射方法一样,使用LPC合成器生成低频带和高频带语音信号[1]。
2.1 高斯混合模型(GMM)
设$x\in R^n$为具有任意分布的随机向量。将$x$的分布密度建模为由Q个分量密度混合而成的高斯混合密度,表示为:
$$公式1:
p(x | \lambda)=\sum_{i=1}^{Q} \alpha_{i} b_{i}(x), \sum_{i=1}^{Q} \alpha_{i}=1, \alpha_{i} \geq 0
$$
其中$b_i(x),i=1,...,Q$为分量密度,$\alpha_i,i=1,...,Q$为分量权重。每个分量密度都是一个包含n个变量的高斯函数的形式
$$公式2:
b_{i}(x)=\frac{1}{(2 \pi)^{n / 2}\left|C_{i}\right|^{1 / 2}} \exp \left[-\frac{1}{2}\left(x-\mu_{i}\right)^{T} C_{i}^{-1}\left(x-\mu_{i}\right)\right]
$$
$\mu_i$为n*1个均值向量,变量$C_i$为n*n各协方差向量。
完整的高斯混合密度由各分量密度的均值向量、协方差矩阵和混合权重 参数化,这些参数用符号表示
$$公式3:
\lambda=\left\{\alpha_{i}, \mu_{i}, C_{i}\right\} \quad, i=1, \cdots, Q
$$
使用GMM来表示声学空间的两个主要的动机:
- 第一个是经验观察,一个高斯base函数的线性组合能够代表一大类样本分布。
- 第二种是直观的概念,即单个成分密度被解释为代表一些广泛的声学类别。
为了对声学空间分布进行建模,必须利用训练语音数据估计GMM的参数。有几种估计GMM参数的技术。最常用的方法是极大似然(ML)估计。ML参数估计可以使用众所周知的期望最大化(EM)算法[3]迭代获得。
2.2 频谱包络重构
2.2.1 联合密度估计的GMM
设$x\in R^n$为窄带语音的谱向量,$y\in R^n$为原宽带语音的谱向量。然后将向量$z=(x,y)$的联合密度建模为Q 2n变量高斯函数的混合。
$$公式4:\begin{array}{l}p(z|\lambda ) = \sum\limits_{i = 1}^Q {\frac{{{\alpha _i}}}{{{{(2\pi )}^n}|{C_i}{|^{1/2}}}}} \exp [ - \frac{1}{2}{(z - {\mu _i})^T}C_i^{ - 1}(z - {\mu _i})]\\\quad \quad \quad \quad \sum\limits_{i = 1}^Q {{\alpha _i}} = 1,{\alpha _i} \ge 0\end{array}$$
其中$\alpha_i$、$\mu_i$和$c_i$表示第$i$类的先验概率、平均向量和协方差矩阵。我们的目标是找到一个使均方误差最小化的映射函数F。
$$公式5:{\varepsilon _{mse}} = E[||y - F(x)|{|^2}]$$
其中$E[·]$表示期望,F(x)为待估计的重构宽带谱向量。
回归函数可以使重构的宽带频谱矢量和原始宽带频谱矢量之间的均方误差最小。
$$公式6:F(x)=E[y|x]=\sum_{i=1}^Qh_i(x)[\mu_i^y+C_i^{yx}C_i^{xx-1}(x-\mu_i^x)]$$
其中
$$公式7:{h_i}(x) = \frac{{\frac{{{\alpha _i}}}{{{{(2\pi )}^{n/2}}{{\left| {C_i^{xx}} \right|}^{1/2}}}}\exp \left[ { - \frac{1}{2}{{\left( {x - \mu _i^x} \right)}^T}C_i^{xx - 1}\left( {x - \mu _i^x} \right)} \right]}}{{\sum\limits_{j = 1}^Q {\frac{{{\alpha _j}}}{{{{(2\pi )}^{n/2}}{{\left| {C_j^{xx}} \right|}^{1/2}}}}} \exp \left[ { - \frac{1}{2}{{\left( {x - \mu _j^x} \right)}^T}C_j^{x{\rm{x}} - 1}\left( {x - \mu _j^x} \right)} \right]}}$$
其中$C _ { i } = \left[ \begin{array} { l l } { C _ { i } ^ { \infty } } & { C _ { i } ^ { \mathrm { xy } } } \\ { C _ { i } ^ { y x } } & { C _ { i } ^ { y y } } \end{array} \right]$和$\mu_i=\begin{bmatrix}\mu_i^x\\ \mu_i^y\end{bmatrix}$
加权函数$h_i(x)$表示第$i$个高斯分量生成矢量x的后验概率。
2.2.2 训练和参数提取
利用以上讨论的回归方法进行频谱包络重建。为得到最优回归,通过使宽带语音通过带通滤波器来生成窄带语音,并提取频谱矢量序列,如图1所示。令$x=[x_1,x_2,...x_N]$为窄带语音频谱向量序列,$y=[y_1,y_2,...,y_n]$为宽带语音的频谱向量序列。通过训练向量序列,使用EM算法估计式(4)中模型$(\alpha,\mu,C)$的参数。

图1 GMM联合密度参数估计过程框图
2.2.3 码字相关功率估计
在NB到WB的转换中,只需利用窄带语音信息就可以估计出重构后的低频和高频语音的功率。先前的方法使用恒定的功率比来产生低频和高频语音[1],但很明显,功率比取决于声音identity(特性)。受此启发,本文还提出了一种与码字相关的功率估计方法。该方法使用一对码本。其中一个码本包含有代表性的窄带谱模板,另一个码本包含低/高频带语音与其窄带版本之间的功率比。这两个码本也是使用一对训练语音、窄带和宽带语音生成的。具体步骤如下:首先,生成窄带频谱矢量的码本。然后利用窄带谱码本对窄带语音训练后的每一帧语音进行矢量量化,并将低带宽和窄带语音的功率比进行聚类。最后,平均每个功率比群集中的功率比,并将其存储为功率比码本的码字。
2.3 从窄带语音生成宽带语音
图2显示了宽带语音生成过程的框图。其基本思想与[1]相似,具体步骤如下
(1)对输入窄带语音进行LPC分析,逐帧提取基音、功率和谱向量。
(2)利用GMM参数,通过式(6)和式(7)得到重构的宽带谱向量。
(3)利用分析过的基音、功率和重建的谱向量,由LPC合成器合成宽带语音。
(4)通过带阻滤波器提取低频段和高频段信号。
(5)通过分析窄带谱向量,解码功率比,将(4)的输出乘以功率比。
(6)将功率补偿的低频段和高频段语音加入到输入窄带语音中,得到重构的宽带输出语音。

图2 基于GMM联合密度估计的宽带语音生成过程框图
3 实验结果
为了评估所提算法的性能,我们对所提算法和传统的忙了映射算法进行了客观语音质量测量和主观听力测试。实验条件如表1所示。
作为使用传统码本映射方法的初步实验,我们研究了哪种训练数据适合语音平衡的单词和句子数据库之间的NB到WB语音转换问题。结果表明,尽管词类型数据的数据库大小是句式数据的5倍,但是句式训练数据的性能要好于词类型数据。因此,我们选择了韩语语音平衡句子数据库进行训练。
我们还通过使用常规码本映射方法的另一个初步实验,评估了所提出的码字相关功率估计方法的性能。结果表明,使用所提出方法重建的宽带语音与使用原始语音的宽带语音之间没有明显的听觉差异。因此,为了将码本映射方法与基于GMM的方法进行比较,我们将所提出的功率估计方法应用于两种算法。除LPC顺序外,其他实验条件与[1]相同。在原始的码本映射方法中,LPC的阶数为14,但是我们将LPC的阶数增加到18,以覆盖宽带语音中的高频共振峰。因为在[13]中的最佳码本大小为128,所以我们选择GMM中相同数量的混合数128。
表一:实验条件
训练话术的数量:10句/每个说话人
分析window:Hamming
window长度:21ms
帧移长度:3ms
LPC阶数:18
VQ码本尺寸:128
GMM的混合数目:128
距离度量:LPC倒谱的欧氏距离
作为一种客观的质量度量,我们使用平均对数谱距离度量,它被近似为截断倒谱距离度量。表2显示了客观质量测量的结果,其中“spk-dep”和“spk-ind”分别表示说话人依赖的方式和说话人独立的方式。从表中可以看出,无论在说话人依赖还是说话人独立的情况下,提出的基于GMM的方法都优于传统的VQ码本映射方法。
表2:客观质量测量结果
| 语音类型 | 方法 | 方式 | 倒谱距离 |
| NB语音 | - | - | 11.82dB |
| 重建的宽带语音 | VQ | spk-dep | 3.27dB |
| GMM | spk-dep | 2.85dB | |
| VQ | spk-ind | 3.96dB | |
| GMM | spk-ind | 3.40dB |
我们通过主观偏好测试对算法的性能进行了评价。首先,我们比较了重建的宽带语音和窄带语音。在测试之前,给听众们展示了窄带和宽带语音的例子。为了验证实验的有效性,重构的宽带语音和窄带语音被随机地呈现在每个听众面前。在测试中,听众被要求判断两个测试话语中哪个更清晰。当听众不能确定哪一个更清晰时,他们可以选择“无差别”。我们还使用与上述相同的步骤,将所提出的算法所重建的宽带语音与传统的码本映射算法所重建的宽带语音进行了比较。
实验结果如表3所示。可以看出,该算法重构的宽带语音优于窄带语音,并且在说话人依赖和说话人独立两方面都优于传统的码本映射算法。
主观偏好测验结果
(a)、窄带语音与基于gmm的重组语音的比较
| NB 语音 | 无区别 | GMM | |
| spk-dep | 10.0% | 2.5% | 87.5% |
| spk-ind | 35.0% | 0.0% | 65.0% |
(b)、VQ码本映射法重构语音与基于gmm的方法重构语音
| VQ | 无区别 | GMM | |
| spk-dep | 2.5% | 32.5% | 65.0% |
| spk-ind | 7.5% | 27.5% | 65.0% |
4 总结
提出了一种基于联合密度估计的高斯混合模型,通过频谱变换从窄带语音中恢复宽带语音的新方法。我们还提出了一种基于码字的功率估计方法来获得重构的低频段和高频段语音信号的适当增益项。客观和主观测试结果均表明,该算法优于传统的码本映射方法。虽然所提算法的结果是很有希望的,但重建后的语音仍有一定的噪声。正在进行的研究正在处理这个问题。
参考文献
[1]Y. Yoshida and M. Abe, "An algorithm to reconstruct wideband speech from narrowband speech based on codebook mapping," Proc. of ICSLP 94, pp. 1591 -1 594, 1994.
[2]Y. M. Cheng, D. OShaughnessy, and P. Mermelstein,"Statistical recovery of wideband speech from narrowband speech," IEEE Trans. Speech and Audio Processing, Vo1.2,no.4, pp. 544-548, Oct. 1994.
[3]D. A. Reynolds and R. C. Rose, "Robust text-independent speaker identification using Gaussian mixture speaker models," IEEE Trans. Speech and Audio Processing, Vo1.3,no. 1, pp. 72-83, Jan. 1995.
[4]Y. Stylianou, Harmonic plus Noise Models for Speech,Combined with Statistical Methods, for Speech and Speaker Modification, Ph.D. thesis, Ecole Nationale Superieure des Telecommunication, Paris, France, pp. 115-144, Jan. 1996.
[5]A. Kain and M. W. Macon, "Spectral voice conversion for text-to-speech synthesis," Proc. of IEEE ICASSP 98, pp. 285-288,1998.
2000_narrowband to wideband conversion of speech using GMM based transformation的更多相关文章
- A Deep Neural Network Approach To Speech Bandwidth Expansion
题名:一种用于语音带宽扩展的深度神经网络方法 作者:Kehuang Li:Chin-Hui Lee 2015年出来的 摘要 本文提出了一种基于深度神经网络(DNN)的语音带宽扩展(BWE)方法.利用对 ...
- Speech Super Resolution Generative Adversarial Network
博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/10874993.html 论文作者:Sefik Emre Eskimez , Kazuhito K ...
- 论文翻译:2015_DNN-Based Speech Bandwidth Expansion and Its Application to Adding High-Frequency Missing Features for Automatic Speech Recognition of Narrowband Speech
论文地址:基于DNN的语音带宽扩展及其在窄带语音自动识别中加入高频缺失特征的应用 论文代码:github 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never ...
- Latent Representation Learning For Artificial Bandwidth Extension Using A Conditional Variational Auto-Encoder
博客作者:凌逆战 论文地址:https://ieeexplore.ieee.xilesou.top/abstract/document/8683611/ 地址:https://www.cnblogs. ...
- 论文翻译:2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders
论文地址:使用半监督堆栈式自动编码器实现包含记忆的人工带宽扩展 作者:Pramod Bachhav, Massimiliano Todisco and Nicholas Evans 博客作者:凌逆战 ...
- Instruments 使用指南
Instruments 用户指南 http://cdn.cocimg.com/bbs/attachment/Fid_6/6_24457_90eabb4ed5b3863.pdf 原著:Apple Inc ...
- oracle已知会导致错误结果的bug列表(Bug Issues Known to cause Wrong Results)
LAST UPDATE: 1 Dec 15, 2016 APPLIES TO: 1 2 3 4 Oracle Database - Enterprise Edition - Versi ...
- (zhuan) Attention in Long Short-Term Memory Recurrent Neural Networks
Attention in Long Short-Term Memory Recurrent Neural Networks by Jason Brownlee on June 30, 2017 in ...
- Oracle12c版本中未归档隐藏参数
In this post, I will give a list of all undocumented parameters in Oracle 12.1.0.1c. Here is a query ...
随机推荐
- 批量解决win10图标上有两个蓝色箭头的方法
双击“此电脑”,点击“C盘”,可以看到一个”用户“文件夹,双击”用户“, 选择现在正在使用的用户名,双击用户名,找到该文件夹下的”桌面“或”Desktop“点击“属性”, 在“常规”选项卡中的属于项中 ...
- ugui制作伸缩菜单
制作一个类似与这种格式的菜单,可以伸缩滑动的.今天正好项目需要用到类似功能,所以尝试了一下,做出如下的效果 虽然只是一个思路,但是可以扩展.声明一个object物体,为but,通过GetCompone ...
- Jmeter之BeanShell断言使用
1.Bean Shell常用内置变量 JMeter在它的BeanShell中内置了变量,用户可以通过这些变量与JMeter进行交互,其中主要的变量及其使用方法如下: log:用来记录日志文件,写入到j ...
- (初学JS)JS基础——ATM机终端程序编写<1.0>
初步学习了JS基础,为了更好地将所学知识熟练运用,我进行了银行ATM存取款机的模拟程序编写,主要通过VScode终端实现系列操作. 我的ATM程序包括6个主要功能:1.查询余额 2.存钱 3. 取钱 ...
- ios---apple mach-o linker error 报错解决
问题触发场景 在新xcode环境里配置了cocoapods,并运行了自己的项目.然后某日从其他地方clone了第三方项目,打开后,有了这个报错: 问题原因 1.用cocoapods装了第三方插件后,要 ...
- Fibonacci Nim(斐波那契尼姆)游戏
游戏描述: Fibonacci Nim是Nim游戏的变种,其规则为两名玩家从一堆硬币中交替移除硬币,第一步中,不允许玩家拿走所有硬币,也不允许不取,并且在每次后续移动中,移除的硬币数量最多可以是上一次 ...
- 关于基本布局之——Grid布局
Gird布局 一.关于概念 网格布局(Grid)是一个很强大的 CSS 布局方案.它可以将网页划分为多个网格任意拼接的布局,可以灵活的运用并实现出多种布局形式. (grid和inline-grid区别 ...
- SpringCloud与微服务Ⅱ --- 微服务概述
一.什么是微服务 1) Martin Fowler论文对微服务的阐述(中文版) 2) 对单一应用进行拆分 3) 每一个独立的应用都有一个独立的进程 4) 拥有自己独立的数据库 5) 微服务化的核心就是 ...
- linux man指令的详解
原创内容,欢迎指正 一.基本操作 大多数linux发行版自带用以查找shell命令及其他GNU工具信息的在线手册,man命令就是用来访问存储在linux系统上的手册页面. 例如,查看ls命令手册,语法 ...
- 线程池之 Executors
线程池之 Executors + 面试题 线程池的创建分为两种方式:ThreadPoolExecutor 和 Executors,上一节学习了 ThreadPoolExecutor 的使用方式,本节重 ...