基于MCRA-OMLSA的语音降噪(二)：实现

上篇文章（基于MCRA-OMLSA的语音降噪(一)：原理）讲了基于MCRA-OMLSA降噪的原理，本篇讲怎么做软件实现。软件实现有多种方式。单纯看降噪效果可用python，因为python有丰富的库可用，可节省不少时间，把主要精力放在降噪效果提升上。如果要把算法用在产品上就得用其他语言。我们是芯片公司，且我们team偏底层，最常用的语言是C，所以我又用C实现了该算法。本文先讲讲在python下的实现，再讲讲在C下的实现。

一，python下的实现

Python有丰富的库，音频文件读取的librosa/soundfile等，数学库的numpy（里面也包含了信号处理的fft等），连算指数积分的都有了（scipy.special.exp1）。算法原理搞清楚了后先画软件流程图，如下图：

根据流程图并且基于现成的python库很快就能把算法实现了。关键是调优，要有好的降噪效果。算法里参数较多，主要有α_p、α_s、α_d等，其中有些有推荐的经验值，有些需要自己tuning。参数tuning过程中降噪效果评估依旧用权威的PESQ。将干净语音和噪声以指定的SNR（通常有0db/5db/10db/15db等）叠加后得到带噪语音，用降噪算法对这个带噪语音做降噪得到降噪后的语音。用PESQ工具分别将带噪语音和降噪后的语音与原来的干净语音做比较，可以得到MOS分提高了多少。花了一些时间tuning后有了一个相对不错的降噪效果，以叠加的是白噪声为例，降噪后在各种SNR下的MOS分提升如下表：

二，C语言下的实现

C语言下的实现要用在产品中，算法的运算量（即 CPU load）是一个要重点考虑的因素。实现通常分两个阶段。第一阶段是基于C中已有数学库的浮点实现，在参数值一样的情况下降噪效果要和python实现的保持一致。如果运算量较大或者处理器不支持浮点运算，需要进入第二阶段。首先将用到的数学库函数用自己写的函数（函数里只有加减乘除等）代替，然后再将整个算法定点化，使运算量降下来。

1，第一阶段

首先根据算法和流程图定义结构体和API。这里简单把API列一下，如下图：

从上图看出，MCRA和OMLSA各有两个API，相对简洁，一个是初始化，一个是算法处理。实现时遇到的第一个问题是C语言数学库里没有提供指数积分函数，需要自己实现。在网上搜了下，书《常用算法程序集（C语言）第三版》的14.15节讲了怎么算指数积分，这里简单介绍下。令

又

其中γ为欧拉常数（γ = 0.577215664901532860606512）。

可以通过该书9.7节的勒让德-高斯求积分法来求。对勒让德-高斯求积分法感兴趣的可以找相关资料来看，这里就不详细介绍了。把Ei(x)求出后再取反就是算法中所要的的值。取几个值比较这个实现与python里scipy.special.exp1的结果，如下表，可以看出精度还是挺高的。

算法代码写好后，还需要FFT相关的代码才能调试，FFT相关的选用了CMSIS里浮点实现的代码。调试时带噪语音文件依旧用的是python实现调试的那个，这样结果好对齐，方便比较各个环节的输出，如FFT的输出、噪声估计的输出等。调试时要一级一级的调，在误差允许的范围内，如果上一级的输出一致而本级的输出不一致，则问题就出在这一级里。在这个方法下很快就调试好了，在误差允许的范围内，每帧各个频点降噪后的幅度谱与python里的保持一致。

2，第二阶段

第二阶段可分两个子阶段，一是把数学库的函数用自己写的函数（函数里只有加减乘除等运算）替代，二是把整个算法定点化。目前第一个子阶段已完成，第二个子阶段完成后有机会也会写怎么对算法做定点化的。

算法用到的数学库函数主要是自然指数（exp()）和一般指数(pow())，再加上做完FFT后是复数，需要用求平方根(sqrt())算得幅度谱，所以需要写出这几个库函数对应的函数。对于一般的求指数而言，它可以转换成求自然指数和自然对数，具体关系如下：，所以只要实现了自然指数和自然对数就可以了。这样最终实现的函数是3个：自然指数，自然对数，求平方根。至于怎么实现的这3个函数，细节较多，会在后面专门写一篇文章讲。实现完这些函数后与标准库里的做比较，误差在允许的范围内即可。再把这些函数用在算法中，拿降噪后的幅度谱与python里的比较，误差也在允许的范围内。

基于MCRA-OMLSA的语音降噪(二)：实现的更多相关文章

基于MCRA-OMLSA的语音降噪(三)：实现(续)
上篇文章(基于MCRA-OMLSA的语音降噪(二):实现)讲了基于MCRA-OMLSA的语音降噪的软件实现.本篇继续讲,主要讲C语言下怎么对数学库里的求平方根(sqrt()).求自然指数(exp()) ...
webRTC中语音降噪模块ANS细节详解(一)
ANS(adaptive noise suppression) 是webRTC中音频相关的核心模块之一,为众多公司所使用.从2015年开始,我在几个产品中使用了webRTC的3A(AEC/ANS/AG ...
基于MCRA-OMLSA的语音降噪(一)：原理
前面的几篇文章讲了webRTC中的语音降噪.最近又用到了基于MCRA-OMLSA的语音降噪,就学习了原理并且软件实现了它.MCRA主要用于噪声估计,OMLSA是基于估计出来的噪声去做降噪.类比于web ...
webRTC中语音降噪模块ANS细节详解(二)
上篇(webRTC中语音降噪模块ANS细节详解(一))讲了维纳滤波的基本原理.本篇先给出webRTC中ANS的基本处理过程,然后讲其中两步(即时域转频域和频域转时域)中的一些处理细节. ANS的基本处 ...
webRTC中语音降噪模块ANS细节详解(三)
上篇(webRTC中语音降噪模块ANS细节详解(二))讲了ANS的处理流程和语音在时域和频域的相互转换.本篇开始讲语音降噪的核心部分,首先讲噪声的初始估计以及基于估计出来的噪声算先验信噪比和后验信噪比 ...
webRTC中语音降噪模块ANS细节详解(四)
上篇(webRTC中语音降噪模块ANS细节详解(三))讲了噪声的初始估计方法以及怎么算先验SNR和后验SNR. 本篇开始讲基于带噪语音和特征的语音和噪声的概率计算方法和噪声估计更新以及基于维纳滤波的降 ...
Java基于opencv实现图像数字识别(二)—基本流程
Java基于opencv实现图像数字识别(二)-基本流程做一个项目之前呢,我们应该有一个总体把握,或者是进度条:来一步步的督促着我们来完成这个项目,在我们正式开始前呢,我们先讨论下流程. 我做的主要 ...
语音降噪论文“A Hybrid Approach for Speech Enhancement Using MoG Model and Neural Network Phoneme Classifier”的研读
最近认真的研读了这篇关于降噪的论文.它是一种利用混合模型降噪的方法,即既利用了生成模型(MoG高斯模型),也利用了判别模型(神经网络NN模型).本文根据自己的理解对原理做了梳理. 论文是基于" ...
Android RecyclerView单击、长按事件:基于OnItemTouchListener +GestureDetector标准实现（二），封装抽取成通用工具类
Android RecyclerView单击.长按事件:基于OnItemTouchListener +GestureDetector标准实现(二),封装抽取成通用工具类我写的附录文章2,介绍了 ...

随机推荐

一次线上GC故障解决过程记录
排查了三四个小时,终于解决了这个GC问题,记录解决过程于此,希望对大家有所帮助.本文假定读者已具备基本的GC常识和JVM调优知识,关于JVM调优工具使用可以查看我在同一分类下的另一篇文章: http: ...
【leetcode】378. Kth Smallest Element in a Sorted Matrix（TOP k 问题）
Given an n x n matrix where each of the rows and columns is sorted in ascending order, return the kt ...
Oracle—回车、换行符
1.回车换行符 chr(10)是换行符, chr(13)是回车, 增加换行符: select ' update ' || table_name || ' set VALID_STATE =''0A'' ...
@Data 注解引出的 lombok
今天在看代码的时候, 看到了这个注解, 之前都没有见过, 所以就查了下, 发现还是个不错的注解, 可以让代码更加简洁. 这个注解来自于 lombok,lombok 能够减少大量的模板代码,减少了在使用 ...
【Linux】【Basis】块存储，文件存储，对象存储
1. 块存储: 定义:这种接口通常以QEMU Driver或者Kernel Module的方式存在,这种接口需要实现Linux的Block Device的接口或者QEMU提供的Block Driver ...
【Linux】【Shell】【Basic】字符串操作
1. 字符串切片: ${var:offset:number} 取字符串的子串: 取字符趾的最右侧的几个字符:${ ...
mysq中char，varchar,text的区别
mysql5.0.3以后,n都表示字符数(varchar(n)) 检索效率 char > varchar > text 当varchar长度超过255之后,跟text一致,但是设置varc ...
java列表组件鼠标双击事件的实现
Swing中提供两种列表组件,分别是列表框(JList)和组合框(JComboBox). 一.JList组件构造方法: public JList():构造一个空的.具有只读模型的JList.publ ...
30个类手写Spring核心原理之依赖注入功能（3）
本文节选自<Spring 5核心原理> 在之前的源码分析中我们已经了解到,依赖注入(DI)的入口是getBean()方法,前面的IoC手写部分基本流程已通.先在GPApplicationC ...
iOS开发——密码存储之keychain的使用
iOS的keychain服务提供了一种安全的保存私密信息(密码,序列号,证书等)的方式.每个ios程序都有一个独立的keychain存储.从ios 3.0开始,跨程序分享keychain变得可行. 下 ...

基于MCRA-OMLSA的语音降噪(二)：实现

基于MCRA-OMLSA的语音降噪(二)：实现的更多相关文章

随机推荐

热门专题