【论文:麦克风阵列增强】Signal Enhancement Using Beamforming and Nonstationarity with Applications to Speech
作者:桂。
时间:2017-06-06 13:25:58
链接:http://www.cnblogs.com/xingshansi/p/6943833.html
论文原文:http://pan.baidu.com/s/1hsuuQYK
前言
上一篇GSC是基于delay的框架进行处理,这是在无混响的情况下一种简单近似处理。许多更为复杂的应用场景,如存在的混响较严重Rt=450ms,则基于delay的模型是不合适的,有学者就考虑直接利用系统的响应函数,也就是传递函数(Transfer function, TF)进行处理,这也就是本文要梳理的思路。
一、理论模型
模型:

其中

对应的频域变换

M为麦克风的数量。
问题知道了,剩下就是建模求解。仍然可以是Frost's algorithm和GSC两种框架。与原始问题基本的不同点就是一个:原始的利用delay的延时补偿;此处是基于传递函数TF。用文中的话就是:
In Frost's algorithm, a beamforming algorithm was proposed under the assumption that the TF from the desired signal source to each sensor includes only gain and delay values. In this article, we consider the general case of arbitrary TFs.
二、理论求解
A-Frost's algorithm
滤波器频域系数

滤波后的信号

滤波后输出信号的均方值,也就是目标函数:

Frost's algorithm基于MVDR的思路,保证目标信号不失真(限制条件),最小化输出功率(目标函数),这就是一个LCMV(linear constrained minimum variance)问题.约束条件:

总结一下求解的理论模型

同样的思路,利用拉格朗日乘子法得出滤波器最优解

同之前的问题一样,在实际的工程应用中:
This closed-form solution is difficult to implement and does not have the ability to track changes in the environment. Therefore, an adaptive solution should be more useful.
因此需要借助梯度下降的思路,利用自适应滤波(LMS、NLMS等)进行工程化的落地。
迭代思路

其中



W的迭代也可以进一步简化:
可以看出实现中只要A已知,整个的框架就搭建完成,问题就转换成:A如何求解?GSC框架也存在同样的问题。如果A已知,此处的TF-Frost's algorithm和TF-GSC都可以工程化落地,但实际应用中A通常未知,所以论文也只是交代了思路,只有TF-GSC利用了一种参数转化的思想进行参数估计,实现工程落地,而TF-Frost's algorithm并没有落地,因此论文的实验部分也仅仅是TF-GSC与基于delay的D-GSC对比,提前补充说明一下(个人理解,如果有误还请帮忙指出)。
回顾一下基于delay的Frost's algorithm框架:

B-TF-GSC
GSC的思想与Frost's algorithm的不同在于,除了利用约束条件

假设矩阵N个自由度,约束条件利用了n个(Frost's algorithm),GSC还利用了剩下的N-n个自由度:

更直观的说,回顾基本GSC框架(本文方法的无t延迟操作)

上支的作用就是Frost's algorithm,下支的Block就是剩下的自由度,所以上支的W与下支的B需要正交,否则冗余。通常为了简便,W与B直接给定,只优化Block之后的参数矩阵,这样一来W就不是最优了,这也是为什么说GSC是Frost's algorithm的扩展不够严谨,如果仅仅从理论框架来讲,GSC就是Frost's algorithm的扩展。
TF-GSC框架的输出
其中上支是
其中

F的定义

之所以可以W0等于F,是因为

满足向量空间

下支是
因为是利用N-n的自由度,所以
存在于向量空间

剩下就是自适应滤波求取G了。
进一步讨论之前,再将GSC框架梳理一下(TF-GSC也属于该框架)
1)上支:也就是fixed beamformer,构建带噪的增强信号;例如本文的
2)下支:也就是Blcok matrix,构建噪声参考信号;例如本文的
3)自适应部分:就是针对上支信号,利用下支得到的噪声对其进行自适应处理,例如本文的
处理结束的信号,就是整个GSC框架增强的信号。
说说G的求解过程。
重新写出自适应的准则函数

其中

利用最小二乘的思路

考虑到工程的适应性,通常用梯度下降的思想,借助最小二乘实现

也可以normalized一下,即NLMS

其中Pest的更新方式为


假设G求解完毕,如何工程化实现呢?一种设计思路是借助FIR

理论上G求解之后,利用最佳逼近,便可得出FIR的设计,但为了防止尖峰值sharp value,考虑如下思路(其实就是为了防止脉冲的削波操作)

细说就是三步走:1)将估计的
时域变换;2)利用削波将时域的g控制在幅值
范围内;3)将处理后的信号变换到频域,认为是利用FIR设计的G,也就是G的最终估计。
三步走的操作可以让迭代步骤更加Robust.
至此,理论分析已经结束。
C-参数转化
然而直接求解/估计传递函数
是困难的,这一点很容易理解,但绝对转化为相对,求解就容易了。
1-上支
定义

W0重写为

如果H归一化,W0可简写

2-下支
一种构造方式(满足正交空间即可):

同样可以由
得到。
3-自适应
这一步按上面的思路工程上完全可以实现。
至此完成了原始问题的参数转化,也就是将绝对求解转化为相对求解,剩下就是
的参数估计了。
D-参数估计
考虑到

即

从而

进一步得出

实际操作中,基于平稳遍历的假设,近似估计:

利用K帧数据进行处理

从而实现H的估计:

<.>代表均值的操作

至此TF-GSC完成了理论分析→理论在工程的落地→实际应用的参数估计,反过来看就是整个工程实现的思路搭建完毕。
总结一下算法流程

参考
- Gannot, Sharon, David Burshtein, and Ehud Weinstein. "Signal enhancement using beamforming and nonstationarity with applications to speech." IEEE Transactions on Signal Processing 49.8 (2001): 1614-1626.
【论文:麦克风阵列增强】Signal Enhancement Using Beamforming and Nonstationarity with Applications to Speech的更多相关文章
- 【论文:麦克风阵列增强】An alternative approach to linearly constrained adaptive beamforming
作者:桂. 时间:2017-06-03 21:46:59 链接:http://www.cnblogs.com/xingshansi/p/6937259.html 原文下载:http://pan.ba ...
- 【论文:麦克风阵列增强】Microphone Array Post-Filtering For Non-Stationary Noise Suppression
作者:桂. 时间:2017-06-08 08:01:41 链接:http://www.cnblogs.com/xingshansi/p/6957027.html 原文链接:http://pan.ba ...
- 【麦克风阵列增强】Delay and sum beamforming
作者:桂. 时间:2017-06-03 15:40:33 链接:http://www.cnblogs.com/xingshansi/p/6937576.html 前言 本文主要记录麦克风阵列的几个基 ...
- 【论文:麦克风阵列增强】An Algorithm For Linearly Constrained Adaptive Array Processing
作者:桂. 时间:2017-06-03 15:06:37 链接:http://www.cnblogs.com/xingshansi/p/6937635.html 原文链接:http://pan.ba ...
- 【论文:麦克风阵列增强】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering
作者:桂. 时间:2017-06-06 16:10:47 链接:http://www.cnblogs.com/xingshansi/p/6951494.html 原文链接:http://pan.ba ...
- 论文翻译:Fullsubnet: A Full-Band And Sub-Band Fusion Model For Real-Time Single-Channel Speech Enhancement
论文作者:Xiang Hao, Xiangdong Su, Radu Horaud, and Xiaofei Li 翻译作者:凌逆战 论文地址:Fullsubnet:实时单通道语音增强的全频带和子频带 ...
- 论文翻译:2020_FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions
论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强 论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式 ...
- 麦克风阵列波束形成之DSB原理与实现
语音识别有近场和远场之分,且很多场景下都会用到麦克风阵列(micphone array).所谓麦克风阵列是一组位于空间不同位置的麦克风按一定的形状规则布置形成的阵列,是对空间传播声音信号进行空间采样的 ...
- 基于麦克风阵列的声源定位算法之GCC-PHAT
目前基于麦克风阵列的声源定位方法大致可以分为三类:基于最大输出功率的可控波束形成技术.基于高分辨率谱图估计技术和基于声音时间差(time-delay estimation,TDE)的声源定位技术. 基 ...
随机推荐
- 修改maven本地仓库的默认地址
由于maven默认仓库地址为C盘,所以缓存jar文件多了会占用掉C盘很多空间,鉴于此可更改maven仓库地址来避免. 1. 打开maven解压后目录,找到conf文件夹中的settion.xml文 ...
- 【BZOJ1001】[BeiJing2006]狼抓兔子
挺简单一个题,最小割模板 我的感觉就是可能建图的时候会比较麻烦吧,毕竟三个方向. #include <cctype> #include <climits> #include & ...
- 安卓手机免root实现对其他软件最高管理(sandbox思想)
root之后的安卓系统并不稳定,root后有时候会出现一些系统的错误,如果实在忍受不了的话,这时候只能恢复出厂设置了.因此不root是最优的选择,但是不root情况下,并没有哪个软件可以实现对其它 ...
- 使用Angular 4、Bootstrap 4、TypeScript和ASP.NET Core开发的Apworks框架案例应用:Task List
最近我为我自己的应用开发框架Apworks设计了一套案例应用程序,并以Apache 2.0开源,开源地址是:https://github.com/daxnet/apworks-examples,目的是 ...
- java泛型探索——小特性
泛型特性(小篇幅) 1. 补充介绍一些常见的泛型特性: 类型参数T可以是recursive(类似递归性),它的边界可以是类型参数是自身的接口或类. 如我实现寻找最大值的方法,可以这么写: public ...
- WEB服务器如何选择 Apache or Nginx?
Web服务器是直接影响网站性能的关键因素,也是每个站长选择网站运营环境时必然考虑的问题.目前Web服务器市场产品众多,最为主流和代表性的当属Apache.Nginx以及微软的IIS.本文目的是通过Ap ...
- 超高速指数模糊算法的实现和优化(10000*10000在100ms左右实现)。
今天我们来花点时间再次谈谈一个模糊算法,一个超级简单但是又超级牛逼的算法,无论在效果上还是速度上都可以和Boxblur, stackblur或者是Gaussblur想媲美,效果上,比Boxblur来的 ...
- .NET面试题系列[17] - 多线程概念(2)
线程概念 线程和进程的区别 进程是应用程序的一个实例要使用的资源的一个集合.进程通过虚拟内存地址空间进行隔离,确保各个进程之间不会相互影响.同一个进程中的各个线程之间共享进程拥有的所有资源. 线程是系 ...
- 服务器返回webview字符串,用该字符串填满整个屏幕,不可缩放
数据源 String webview_str: <p><img src="http://img.tianxiahuo.cn/goods/20160114/uploads/i ...
- 每天一道Java题[7]
题目 什么是REST原则,请解释RESTful架构,以及其设计思想? 解答 REST,全称为Representation State Transfer,是一种互联网软件的架构原则.凡是满足REST原则 ...


