基于MCRA-OMLSA的语音降噪(一)：原理

前面的几篇文章讲了webRTC中的语音降噪。最近又用到了基于MCRA-OMLSA的语音降噪，就学习了原理并且软件实现了它。MCRA主要用于噪声估计，OMLSA是基于估计出来的噪声去做降噪。类比于webRTC中的降噪方法，也有噪声估计（分位数噪声估计法）和基于估计出来的噪声降噪（维纳滤波），MCRA就相当于分位数噪声估计法，OMLSA就相当于维纳滤波。本文先讲讲怎么用MCRA和OMLSA来做语音降噪的原理，后续会讲怎么来做软件实现。

一， MCRA

MCRA的全称是Minima Controlled Recursive Averaging（最小值控制的递归平均），是cohen提出的一种常用的噪声估计方法，具体见论文《Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement》。从名字就可看出这个方法主要包括两部分，最小值控制和递归平均。最小值控制用来算语音存在概率，递归平均用来做噪声估计，即基于语音存在概率做噪声估计。先定义一些名称，然后分别看这两部分。用l表示第l帧，k表示第k个频点，Y(k, l)表示带噪语音第l帧的第k个频点的幅度谱，N(k, l)表示噪声第l帧的第k个频点的幅度谱，S(k, l)表示干净语音第l帧的第k个频点的幅度谱，H₀(k, l)表示第l帧的第k个频点上只有噪声，H₁(k, l)表示第l帧的第k个频点上有语音。P(H₁(k, l) | Y(k, l)) 表示第l帧的第k个频点上是语音的概率，P(H₀(k, l) | Y(k, l)) 表示第l帧的第k个频点上是噪声的概率，显然P(H₀(k, l) | Y(k, l)) + P(H₁(k, l) | Y(k, l)) = 1。

1，用最小值控制来算语音存在概率

前面的文章（webRTC中语音降噪模块ANS细节详解(四)）讲过webRTC的ANS是基于似然比等来算语音存在概率。而这里是用最小值控制来算语音存在概率，即基于当前带噪语音的能量谱与指定长度帧内带噪语音的能量谱的最小值的比值来计算，具体如下：

1）对带噪语音的能量谱做频域平滑和时域平滑

从上式可见，平滑窗的长度是奇数(2w + 1)，系数是b(i)。

其中，α_s (0 < α_s < 1)是平滑因子。

2）搜索能量谱最小值

定义S_min(k, l)和S_tmp(k, l)，并对它们初始化如下：

然后按频点从第一帧开始逐帧比较：

当到第L帧后：

后面以L帧为一个周期，重复上面两步，得到这个周期内的S_min(k, l)和S_tmp(k, l)。搜索窗的帧长度L会影响到噪声的跟踪速度，一般按照经验选0.5s~1.5s左右。

3）计算语音存在概率

定义S_r(k, l)为当前帧相应频点的能量谱与最小值的比值，即

再定义二值I (k, l)如下：

最终语音存在概率通过下式得到：

其中，α_p (0 < α_p < 1)是平滑因子。此处的p(k, l)就是P(H₁(k, l) | Y(k, l))。为书写方便，下文用p表示P(H₁(k, l) | Y(k, l))，用1-p表示P(H₀(k, l) | Y(k, l))。

2，用递归平均来估计噪声

通常认为噪声都是加性噪声，所以有下式：

定义σ(k, l)表示第l帧的第k个频点上的噪声能量谱。这里噪声更新的思路如下：当语音不存在时更新噪声的估计，当语言存在时用前一帧的噪声估计值作为当前噪声的估计值，表示如下式：

其中，α_d (0 < α_d < 1)是平滑因子。

所以噪声能量谱的估计如下式（p = P(H₁(k, l) | Y(k, l))，为语音存在概率）：

α_d是tuning出来的，每个频点上的语音存在概率是上面基于最小控制的方法算出来的，上一帧估计出来的噪声能量谱σ(k, l-1)和当前帧的带噪语音的能量谱均已知，这样当前帧的估计出来的噪声的能量谱就可求出了。

通常令，这样上式就可写成下式：

这就是噪声估计的数学表达式。

二， OMLSA

噪声估计出来后就要基于它做降噪了。这里用的是OMLSA(Optimally Modified Log-Spectral Amplitude Estimator，最优修正的对数幅度谱估计)，依旧是cohen提出来的，论文是《Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator》。OMLSA是MMSE-LSA的改进算法，目的是得到增益gain。算法推导有些复杂，这里只给出gain的表达式，如下：

其中，G_min为预先设定的值，p(k, l)是语音存在概率。这里 , ξ(k, l)是先验性噪比，γ(k, l)是后验性噪比。先验性噪比和后验性噪比在文章（webRTC中语音降噪模块ANS细节详解(一)）中讲过。后验性噪比的计算基于上面用MCRA估计出来的噪声，, 先验性噪比计算依旧用文章(webRTC中语音降噪模块ANS细节详解(三))中提到的DD方法，表达式如下：

其中，α_SNR (0 < α_SNR < 1)是平滑因子。

G(k, l)得到后，降噪后干净语音的每个频点的幅度谱可通过下式得到：

S(k, l) = G(K, l)Y(k, l)

以上就是基于MCRA-OMLSA的语音降噪原理。这里需要指出的是噪声估计和语音降噪相对独立，有不同的组合方式来降噪，比如MCRA也可以和维纳滤波结合来降噪。

基于MCRA-OMLSA的语音降噪(一)：原理的更多相关文章

webRTC中语音降噪模块ANS细节详解(一)
ANS(adaptive noise suppression) 是webRTC中音频相关的核心模块之一,为众多公司所使用.从2015年开始,我在几个产品中使用了webRTC的3A(AEC/ANS/AG ...
基于MCRA-OMLSA的语音降噪(二)：实现
上篇文章(基于MCRA-OMLSA的语音降噪(一):原理)讲了基于MCRA-OMLSA降噪的原理,本篇讲怎么做软件实现.软件实现有多种方式.单纯看降噪效果可用python,因为python有丰富的库可 ...
基于MCRA-OMLSA的语音降噪(三)：实现(续)
上篇文章(基于MCRA-OMLSA的语音降噪(二):实现)讲了基于MCRA-OMLSA的语音降噪的软件实现.本篇继续讲,主要讲C语言下怎么对数学库里的求平方根(sqrt()).求自然指数(exp()) ...
语音降噪论文“A Hybrid Approach for Speech Enhancement Using MoG Model and Neural Network Phoneme Classifier”的研读
最近认真的研读了这篇关于降噪的论文.它是一种利用混合模型降噪的方法,即既利用了生成模型(MoG高斯模型),也利用了判别模型(神经网络NN模型).本文根据自己的理解对原理做了梳理. 论文是基于" ...
webRTC中语音降噪模块ANS细节详解(二)
上篇(webRTC中语音降噪模块ANS细节详解(一))讲了维纳滤波的基本原理.本篇先给出webRTC中ANS的基本处理过程,然后讲其中两步(即时域转频域和频域转时域)中的一些处理细节. ANS的基本处 ...
webRTC中语音降噪模块ANS细节详解(三)
上篇(webRTC中语音降噪模块ANS细节详解(二))讲了ANS的处理流程和语音在时域和频域的相互转换.本篇开始讲语音降噪的核心部分,首先讲噪声的初始估计以及基于估计出来的噪声算先验信噪比和后验信噪比 ...
webRTC中语音降噪模块ANS细节详解(四)
上篇(webRTC中语音降噪模块ANS细节详解(三))讲了噪声的初始估计方法以及怎么算先验SNR和后验SNR. 本篇开始讲基于带噪语音和特征的语音和噪声的概率计算方法和噪声估计更新以及基于维纳滤波的降 ...
基于简单sql语句的sql解析原理及在大数据中的应用
基于简单sql语句的sql解析原理及在大数据中的应用李万鸿老百姓呼吁打土豪分田地.共同富裕,总有一天会实现. 全面了解你所不知道的外星人和宇宙真想:http://pan.baidu.com/s/1 ...
基于LNMP(fastcgi协议)环境部署、原理介绍以及fastcgi_cache配置以及upstream模块负载均衡讲解
ngx_http_proxy_module只能反向代理后端使用HTTP协议的主机.而ngx_http_fastcgi_module只能反向代理后端使用FPM或者使用FastCGI协议的客户端. 一.部 ...

随机推荐

[loj3179]视觉程序
暴力做法:1.对每一行/列求$or$:2.枚举行的差值$i$,并对任意相差为$i$的行和相差为$k-i$的列求$and$,对行/列的$and$结果求$or$,对行和列的$or$求$and$,对所有$i ...
Cortex-A系列中断
1. 回顾STM32系统 1.1 中断向量表 ARM芯片冲0x00000000,在程序开始的地方存放中断向量表,按下中断时,就相当于告诉CPU进入的函数.描述很多个中断服务函数的表. 对于STM32来 ...
未能加载文件或程序集“Microsoft.CodeDom.Providers.DotNetCompilerPlatform
"/"应用程序中的服务器错误. 未能加载文件或程序集"Microsoft.CodeDom.Providers.DotNetCompilerPlatform, Versio ...
Collections集合工具类的常用方法
Collections集合工具类的方法 addAll与shuffle import java.util.ArrayList; import java.util.Collections; /* - ja ...
BZOJ3971 [WF2013]Матрёшка
*XXXIV. BZOJ3971 [WF2013]Матрёшка 摘自 DP 做题记录 II 例题 XXXIV. 仍然是神仙区间 DP. 直接设状态 $f_{i,j}$ 表示区间 \([i,j] ...
FESTUNG模型介绍—1.对流方程求解
FESTUNG模型介绍-1.对流方程求解 1. 控制方程对流问题中,控制方程表达式为 \[\partial_t C + \partial_x (u^1 C) + \partial_y (u^2 C) ...
python-django-类函数__str__ 函数
打印一个实例化对象时,打印的其实时一个对象的地址.而通过__str__()函数就可以帮助我们打印对象中具体的属性值,或者你想得到的东西. 因为再python中调用print()打印实例化对象时会调用_ ...
61. Binary Tree Inorder Traversal
Binary Tree Inorder Traversal My Submissions QuestionEditorial Solution Total Accepted: 123484 Total ...
java面试题目偏基础
一.JAVA基础篇-概念1.简述你所知道的Linux:Linux起源于1991年,1995年流行起来的免费操作系统,目前, Linux是主流的服务器操作系统, 广泛应用于互联网.云计算.智能手机(An ...
SpringBoot整合Shiro 一：搭建环境
Java项目的安全框架一般使用 shiro 与 spring security 具体怎么选择可以参考文章:安全框架 Shiro 和 Spring Security 如何选择我这里选择使用Shiro ...

基于MCRA-OMLSA的语音降噪(一)：原理

基于MCRA-OMLSA的语音降噪(一)：原理的更多相关文章

随机推荐

热门专题