【论文：麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

作者：桂。

时间：2017-06-06 16:10:47

链接：http://www.cnblogs.com/xingshansi/p/6951494.html

原文链接：http://pan.baidu.com/s/1i51Kymp

omlsa代码：http://pan.baidu.com/s/1bpkvLVp

omlsa论文：http://pan.baidu.com/s/1i5j3Adv

前言

　　这篇文章是TF-GSC的改进版。虽然TF-GSC对于方向性干扰的抑制效果不错，对于弥散噪声（diffuse noise，题外话：不同方向directional noise的均值，或者接近这种效果，可以理解为diffuse noise.）TF-GSC性能下降明显，如果diffuse noise还是non-stationary，性能下降就更严重了。本文的思路是在TF-GSC的基础上，引入postfiltering（后置滤波）,文中提到了三种方法：两种基于single channel-1)mixture maximum;2）OMLSA;但如果噪声both diffused and nonstationary，基于single channel的方法不再适用，这时候方法3仍然有效：a new multimicrophone postfilter method。

　　本文主要梳理基于TF-GSC的multimicrophone postfilter method，由于涉及到OMLSA，所以先简单介绍。基于single channel的mix-max方法是单独使用，后面有时间另写文章整理。

一、OMLSA思想

　　A-利用不存在概率的增强

首先回顾利用absence probability的思路

容易推理基于MMSE准则的估计器

如果考虑语音存在概率，则估计器扩展为

理论上的值为0，上式简化为

　　B-语音不存在概率与最大似然准则估计器ML 结合

例如在语音增强一文中介绍的，基于最大似然准则的估计器为

从Y的概率密度形式

易知ML是基于语音存在的假设，结合语音存在概率，则基于ML准则的估计器为

对于）的计算可以利用贝叶斯准则

这里利用一个假设（也就是约束条件）：噪声服从均值为0，方差相同的复高斯分布。，此时容易证明噪声幅度服从瑞利分布（相位为均匀分布，且二者独立），

H1假设下，此时

关于的计算参考语音增强一文的最大似然估计。例如假设语音存在/不存在是等可能的，，此时完成了的估计：

其中是a posteriori SNR，是a priori SNR。这个就是一般意义的参数估计了，在语音增强一文也给出了两个实现思路：1）Maximum-Likelihood Method;2）Decision-Directed Approach.至此也就完成了结合不存在概率的语音增强。

　　C-语音不存在概率与最小均方误差估计器MMSE 结合

其实基本思路都是一样的：

然后是利用贝叶斯进行概率估计

不同点在于这里进行了转化

其中

其中，denotes the a priori probability of speech absence for frequency bin k.从而

与ML准则不同的是，只有噪声时，是噪声D的分布，而不是其幅度（其实如果是幅度，也有一套方法，感兴趣可以自己推导推导）。仍是高斯分布

H1时，且认为D与X不相关，易得

代入上面的估计器，有

其中就是，则.进一步求解条件概率

其中

参数估计的细节与ML中的估计思路一致。从而实现信号的增强：

G就是MMSE估计器

不同之处是里边的替换成。

题外话：看看之前的参数估计与此处参数估计的联系

即

不得不佩服，这些理论的研究者真有一套。

　　D-语音不存在概率与对数最小均方误差估计器Log-MMSE 结合（OMLSA）

原理与其他方法一致

X的估计器

可以进一步写为

其中就是语音增强一文中的对数MMSE估计器。这里要有一点不同了，这里的概率是指数形式，有学者研究这样的增强效果并不比直接LSA更好，所以对其变形

还是与其他方法类似：概率相乘的形式。这里的与MMSE中的一致。至此完成了LSA与语音不存在概率的结合。但这套理论比较粗糙，一些学者（原文见这里，P262）提出了不同的角度：只有噪声时，不再认为严格为0，而是接近0：

其中，第一项就是最开始的LSA与语音存在概率的原始结合，这就是optimally modified log-spectrum amplitude (OMLSA) estimator ,即

按作者的说法，OMLSA特别是对于低SNR比其他方法更有效。

　　E-OMLSA中的参数估计

1-SNR估计

按原文的说法，虽然SNR估计理论上更漂亮，但实际效果并不好，因此直接对SNR的估计结果利用不存在概率：

需要注意的是：依赖于修正之后的SNR，而P（H1）则依赖修正之前的SNR。

2-语音存在概率的估计

上面分析的各套打法，都是用的固定先验概率P(H0)和P(H1)也就是q、1-q.这里提供了两个思路。

思路一（逐个频点处理）：Hard threshold

这里其实是基于ML准则的估计：

更新公式

c是常数，文中设定为0.1.

思路二（逐个频点处理）：soft threshold

利用

得出更新公式

有的学者简化了操作

是门限，文中设定为0.8.得出更新公式

c按经验取0.98.此处的更新需要借助VAD，仅当存在语音时迭代更新。

在OMLSA原文中，作者提出了另外一种估计思路。

只是带宽不同，估计思路一致（本质上都是基于能量的估计）

其中

h是带宽不同的窗函数。Pframe按帧处理

从而

其中至此完成了语音存在概率的估计

加个后处理修正，也就是q=min(q,q_max)：

3-噪声频谱的估计

这里用到的是the minima-controlled recursive-averaging (MCRA)算法，这里是一套方法，另起文章梳理。

汇总一下OMLSA的思路：

OMLSA算法思路：

　　1）大框架：利用统计模型中，log-MMSE的估计器;

　　2）细节有三点：

　　　　2.1）priori SNR：修正了估计方法;

　　　　2.2）语音不存在概率：改进了估计方法;

　　　　2.3）噪声频谱：利用MCRA方法估计;

语音增强模型、priori SNR的估计、语音不存在概率估计、噪声频谱估计：这是四块技术，每一块都有多种方法，OMLSA是一个综合算法，每一块技术都用了其中一套打法而已。

二、论文理论框架

全文主要是TF-GSC框架+post-filtering。

TF-GSC：这篇博文已介绍。

Post-filtering：这篇博文已介绍。

参考

Gannot, Sharon, and Israel Cohen. "Speech enhancement based on the general transfer function GSC and postfiltering." IEEE Transactions on Speech and Audio Processing 12.6 (2004): 561-571.
Loizou, Philipos C. Speech enhancement: theory and practice. CRC press, 2013.

【论文：麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering的更多相关文章

论文翻译：Speech Enhancement Based on the General Transfer Function GSC and Postfiltering
论文地址:基于通用传递函数GSC和后置滤波的语音增强博客作者:凌逆战博客地址:https://www.cnblogs.com/LXP-Never/p/12232341.html 摘要在语音增强应 ...
【论文:麦克风阵列增强】An alternative approach to linearly constrained adaptive beamforming
作者:桂. 时间:2017-06-03 21:46:59 链接:http://www.cnblogs.com/xingshansi/p/6937259.html 原文下载:http://pan.ba ...
【论文:麦克风阵列增强】Microphone Array Post-Filtering For Non-Stationary Noise Suppression
作者:桂. 时间:2017-06-08 08:01:41 链接:http://www.cnblogs.com/xingshansi/p/6957027.html 原文链接:http://pan.ba ...
【论文：麦克风阵列增强】Signal Enhancement Using Beamforming and Nonstationarity with Applications to Speech
作者:桂. 时间:2017-06-06 13:25:58 链接:http://www.cnblogs.com/xingshansi/p/6943833.html 论文原文:http://pan.bai ...
【论文：麦克风阵列增强】An Algorithm For Linearly Constrained Adaptive Array Processing
作者:桂. 时间:2017-06-03 15:06:37 链接:http://www.cnblogs.com/xingshansi/p/6937635.html 原文链接:http://pan.ba ...
论文翻译：2021_Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss
论文地址:使用感知动机目标和损失的低延迟语音增强引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Per ...
【麦克风阵列增强】Delay and sum beamforming
作者:桂. 时间:2017-06-03 15:40:33 链接:http://www.cnblogs.com/xingshansi/p/6937576.html 前言本文主要记录麦克风阵列的几个基 ...
论文翻译：2021_MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement
论文地址:MetricGAN+:用于语音增强的 MetricGAN 的改进版本论文代码:https://github.com/JasonSWFu/MetricGAN 引用格式:Fu S W, Yu ...
论文翻译：2021_DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering
论文地址:DeepFilterNet:基于深度滤波的全频带音频低复杂度语音增强框架论文代码:https://github.com/ Rikorose/DeepFilterNet 引用:Schröte ...

随机推荐

python——面向对象基础
概述面向过程:根据业务逻辑从上到下写垒代码函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可面向对象:对函数进行分类和封装,让开发“更快更好更强...” 面向过程编程最易被初学 ...
waiting for spring......
世间哪得双全法,不负如来不负卿....<仓央嘉措>
codeforces 757F Team Rocket Rises Again
链接:http://codeforces.com/problemset/problem/757/F 正解:灭绝树. mdzz倍增lca的根节点深度必须是1..我因为这个错误调了好久. 我们考虑先求最短 ...
关于制作C语言头文件的思考
我们接触的第一个c语言代码是这个: #include<stdio.h> main() { printf("Hello World"); } 这是最简单的c代码,然而,它 ...
一句话告诉你JQuery $(this)到底指的是什么，怎么用
看了网上好多关于jquery $(this)的解释,感觉都说的很模糊. 下面说出我自己的理解. this表示的是当前对象,下面以例子来说明 <!DOCTYPE html> <html ...
C#基础知识-基本的流程控制语句（三）
所谓的流程控制就是在程序运行中控制程序的走向,可以通过各种的条件判断执行代码的顺序,有if... if...else.. else...if |switch case...|while... Do.. ...
redis持久化快速回忆手册
Redis提供的持久化机制: 1). RDB持久化:该机制是指在指定的时间间隔内将内存中的数据集快照写入磁盘. 2). AOF持久化:该机制将以日志的形式记录服务器所处理的每一个写操作,在Redis服 ...
Docker - 定制镜像
Dockerfile Docker Hub拥有大量高质的官方镜像:可直接使用的服务类镜像.语言应用镜像.基础操作系统镜像等,满足绝大部分需求. 此外,可以通过定制镜像的方式来满足实际使用中的特定需求. ...
学习笔记：JavaScript-入门篇
1.对话框,输出框,警告框 1. document.write() 可用于直接向 HTML 输出流写内容.简单的说就是直接在网页中输出内容. 2.alert(字符串或变量); 3.conf ...
[刷题]算法竞赛入门经典(第2版) 6-6/UVa12166 - Equilibrium Mobile
题意:二叉树代表使得平衡天平,修改最少值使之平衡. 代码:(Accepted,0.030s) //UVa12166 - Equilibrium Mobile //Accepted 0.030s //# ...

【论文：麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

【论文：麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering的更多相关文章

随机推荐

热门专题