摘要:轻量级神经网络降噪方法,解析 ZegoAIDenoise 的算法实现!

文|即构引擎开发团队

一、轻量级神经网络降噪——ZegoAIDenoise

当下,用户在进行音频通话时常常置身于各种不同的场景中,嘈杂的背景声音以及非稳态噪音往往会对通话产生干扰,其中非稳态噪音是指在时间分布上不连续,并有其形态特征的噪声,是相对稳态噪声而言的,例如,鼠标点击声、键盘声、敲击声、空调声、厨房碗碟碰撞声等都属于非稳态噪音。

而基于信号处理的传统音频降噪算法对于平稳噪声有比较好的降噪效果,但是对于非平稳噪声,低信噪比等复杂场景,降噪效果较差,甚至失效。

随着目前深度学习的广泛应用,基于神经网络的音频降噪算法大量涌现,这些算法无论在降噪效果上,还是泛化能力上,都能取得比较好的结果,很好的弥补了传统算法的不足。

但是,这些方案大多是直接基于短时傅里叶变换后的频域信号或者时域信号的端到端方案,存在网络模型过于复杂,性能消耗巨大等问题,给实时场景交付提出了很大的挑战。

基于上述挑战,ZEGO 即构科技提出了一个轻量级的神经网络降噪方法 —— ZegoAIDenoise,对于平稳和非平稳噪声都有很好的降噪效果,保证了语音的质量和可懂度,同时将性能开销控制在一个很低的量级,与传统降噪算法相当,成功覆盖大部分中低端机型。

那么今天将详细为大家介绍 ZegoAIDenoise 的实现原理,及如何在低性能开销的前提下,提高深度学习算法的降噪效果及泛化能力。

二、ZegoAIDenoise 算法原理解析

ZegoAIDenoise 采用传统算法和深度学习相结合的 Hybrid 方法,为了降低性能开销,采用频域分成子带方案,并无限缩小深度学习网络模型,用尽量小的网络模型达到更好的降噪效果。

1、信号模型

如图 1 所示,传统降噪基本原理多采用谱减法,即根据谱能量估算噪声能量及各频点增益,得到干净语音。所以,只要 ZegoAIDenoise 能准确估算出频点增益 G,就能从带噪的麦克风信号中得到期望的干净语音信号 x(n)。

频点增益 G 的推导过程如下:

y(n) = x(n) + d(n) ……… (1)

公式(1) 中,x(n)代表干净语音信号,d(n)代表噪声信号,y(n)代表麦克风采集的信号。

对公式 (1) 做 STFT 之后,得到公式 (2):

Y(i, k) = X(i, k) + D(i, k) ……… (2)

其中,Y(i, k),X(i, k) 和 D (i, k) 分别代表 y(n),x(n),d(n)的频域信号,i代表第i个时域帧,k代表频点,由此,得到公式(3):

G(i, k) = |S(i, k)| / |Y(i, k)| ……… (3)

G(i, k) 代表的是估算的频点增益。所以,只要估算出 G(i, k),就能通过带噪信号Y(i, k),估算出语音信号 S(i, k)。

2、 特征值

为了避免大量的输出,避免使用大量神经元,ZegoAIDenoise 决定不直接使用语音样本或者能量谱。作为代替,ZegoAIDenoise 考虑一种符合人类听觉感知的频率尺度 —— 巴克频带尺度,总共用了 22 个子带。

为了更好估算 G(i, k),需要选择更能代表语音特性的特征,从而区分语音和噪声,ZegoAIDenoise 引入了基于基因周期的梳状滤波器 (4)。式中,M 是中心抽头两侧的周期数,通过调整 M 值,改变时延。

……… (4)

自适应目标增益,如果通过梳状滤波器得到的相干性能量低于干净语音的相干性能量,则调整目标增益,限制最大衰减量,能有效地解决在大嘈杂的场景的过抑制问题。

使用梳状滤波器,能有效地提高语音的谐波特性,降低谐波间噪声,用一定时延的代价,换取更好的降噪效果。

3、CRNN网络模型

如图 2 所示,ZegoAIDenoise 采用传统算法和深度学习相结合的 Hybrid 方法,传统算法对实时数据进行特征提取及后处理,深度学习估计子带增益,Hybrid 不仅能满足实时性要求,同时能适应场景复杂的噪声环境,给实时通信带来良好的用户体验。

如图 3 所示,CRNN 模型使用两个卷积层和多个 GRU 层。卷积层的使用能进一步地提高特征提取的有效性及泛化能力。

训练时,通过对语音和噪声应用不同的随机二阶零极点滤波器,ZegoAIDenoise 改进了模型的泛化性。ZegoAIDenoise 还对两个信号应用相同的随机频谱倾斜,以便更好地概括不同的麦克风频率响应。为了实现带宽独立性,ZegoAIDenoise 采用了一个低通滤波器,其随机截止频率在 3 kHz 和 16 kHz 之间。这使得在窄带到全波段音频上使用同一型号成为可能。

训练过程中,损失函数的设计也尤为重要。除了平方误差,ZegoAIDenoise 还引入四次方误差来强调训练估计错误的代价。同时,还增加了注意力机制,用以减少对语音的损伤。

三、ZegoAIDenoise 效果及性能对比

在对比项上,ZegoAIDenoise 主要和传统降噪及 RNNoise 降噪进行了对比,无论在 MOS,还是在可懂度上都有明显提升。

如上效果展示,ZegoAIDenoise 针对不同的噪声类型及场景,均取得比较理想的降噪效果。在实时处理的性能测试方面,默认采样率 32kHz,帧长 10ms,在 1.4G Hz主频的 iPhone 6上,CPU 性能开销为 1% 左右,与 WebRTC 的通用降噪相当。所以,ZegoAIDenoise 无论在降噪效果、泛化能力,还是性能开销上,都取得了长足的进步,实现了机型和场景的全覆盖。

ZEGO

综上所述,ZegoAIDenoise 实现了一个轻量级的神经网络降噪方法,无论是在稳态还是非稳态的噪声环境,都能取得比较好的降噪效果,高质量的音频降噪能够有效提升用户实时互动体验。

目前,ZEGO Express SDK 已正式提供 AI 降噪功能,开发者可以在使用麦克风采集声音时,对声音进行降噪处理,并在传统降噪(详情请参考 噪声抑制)消除稳态噪声的基础上,同步处理非稳态噪声(包括鼠标点击声、键盘声、敲击声、空调声、厨房碗碟碰撞声、餐厅嘈杂声、环境风声、咳嗽声、吹气声等非人声噪声),保留纯净语音,提升用户的通话体验。

未来,我们会结合具体行业和场景,引入更多的深度学习算法,提升产品的场景适应能力,给用户提供更好的音频体验!

 
 

消灭非稳态噪音的利器 - AI 降噪的更多相关文章

  1. 主动降噪,通话降噪及AI降噪之辨

    近日,三星发布的Buds Pro 耳机中,宣传有以下功能.其中涉及到噪声的,有主动降噪,通话降噪及智能降噪,很多人对他们的具体用途容易混淆,今天我们来辨析一下. 主动降噪和通话降噪完全不是一个概念,无 ...

  2. 声网AI降噪测评系统初探

    作者:孟赛斯 前言 音频质量的优化是一个复杂的系统工程,而降噪是这个系统工程中的一个重要环节,传统的降噪技术经过几十年的发展已经陷入了瓶颈期,尤其是对非平稳噪声的抑制越来越不能满足新场景的需求.而近几 ...

  3. 微软发布云端基因服务:推动AI驱动的精准医疗

    微软发布云端基因服务:推动AI驱动的精准医疗 2018年03月07日 00:00:00 微软研究院AI头条 阅读数:117    版权声明:本文为博主原创文章,未经博主允许不得转载. https:// ...

  4. App 用户新体验——Agora Native SDK 3.4.0

    声网Agora Native SDK 3.4.0 本月已正式上线.新版本不仅增加了更丰富的实时美声音效.屏幕共享.虚拟节拍器等功能,同时在 SDK 的稳定性.兼容性及安全合规上做了大幅度升级,希望为 ...

  5. 声网 X Yalla:面对面不如线上见,中东年轻人最偏爱的语聊房是怎样“炼”成的?

    "实时互动的本质是服务,而非功能."这是声网一直以来坚信的理念. 功能上线之后,服务才真正开始.实时互动的每一秒,甚至每一毫秒的体验都需要得到稳定.可靠的保证.而广大用户之所以能够 ...

  6. 基于机器学习的语音编解码器声网Agora Silver:支持超低码率下的高音质语音互动

    从 1860 年电话发明,到现如今通过网络进行语音互动,语音始终是最自然.最基础的实时互动方式.过去几年,语音实时互动成为越来越多人日常生活的一部分.但是每个人都会遇到弱网环境,这会直接影响语音通话体 ...

  7. 一起听、一起看、一起唱掀起Z世代青年社交浪潮

    6月5日,声网Agora 联合人人都是产品经理在成都举办了主题为"社交泛娱乐APP运营增长力和新玩法解析"的沙龙.现场围绕社交泛娱乐新玩法解析以及出海的新机遇.支付痛点.增长.运营 ...

  8. 探究光线追踪技术及UE4的实现

    目录 一.光线追踪概述 1.1 光线追踪是什么 1.2 光线追踪的特点 1.3 光线追踪的历史 1.4 光线追踪的应用 二.光线追踪的原理 2.1 光线追踪的物理原理 2.2 光线追踪算法 2.3 R ...

  9. 深入GPU硬件架构及运行机制

    目录 一.导言 1.1 为何要了解GPU? 1.2 内容要点 1.3 带着问题阅读 二.GPU概述 2.1 GPU是什么? 2.2 GPU历史 2.2.1 NV GPU发展史 2.2.2 NV GPU ...

  10. RTC为何这么火?

    国内疫情已经接近尾声,有疫情的原因孵化的音视频互动类 App数量出现井喷式增长,通讯场景被资本关注,市场持续走高.在线教育.娱乐社交.直播带货等领域逆势增长,也带动了开发者们对于 IM 和RTC能力的 ...

随机推荐

  1. python:生成半年内的巡检日报execl

    问题描述:使用脚本来生成半年内的数据,数据内容大概为每天的数据库巡检日报,临时抱佛脚.数据不可能是真实的,都是随机生成的,想要使用真实的数据后面直连操作系统或者数据库.后期可以慢慢实现自动化生成每天的 ...

  2. 版本依赖控制工具Maven

    Maven 简介 依赖管理工具 如果说A工程里面用到了B工程的类.接口.配置文件等这样的资源,那么就说A依赖B 构建管理工具 构建:使用原材料生产产品的过程 安装:把一个Maven工程经过打包操作生产 ...

  3. Visual Studio Code 常见的配置、常用好用插件以及【vsCode 开发相应项目推荐安装的插件】

    一.VsCode 常见的配置 1.取消更新 把插件的更新也一起取消了 2.设置编码为utf-8:默认就是了,不用设置了 3.设置常用的开发字体:Consolas, 默认就是了,不用设置了 字体对开发也 ...

  4. Golang一日一库之logrus

    前言 之前一篇文章介绍了 日志库zap https://www.cnblogs.com/zichliang/p/17311480.html 毋庸置疑,zap库无论是Golang在项目中 还是生产中都极 ...

  5. 测试环境治理之MYSQL索引优化篇

    作者:京东物流 李光新 1 治理背景 测试环境这个话题对于开发和测试同学一定不陌生,大家几乎每天都会接触.但是说到对测试环境的印象,却鲜有好评: •环境不稳定,测试五分钟,排查两小时 •基础建设不全, ...

  6. spring boot过滤器实现项目内接口过滤

    spring boot过滤器实现项目内接口过滤 业务 由于业务需求,存在两套项目,一套是路由中心,一套是业务系统. 现在存在问题是,路由中心集成了微信公众号与小程序模块功能,业务系统部署了多套服务. ...

  7. SRIO接口卡航电总线解决方案

    TES600是天津拓航科技的一款基于FPGA与DSP协同处理架构的通用高性能实时信号处理平台,该平台采用1片TI的KeyStone系列多核浮点/定点DSP TMS320C6678作为主处理单元,采用1 ...

  8. Axure 手机页面拖动效果

    1.设置好上下固定们,中间放一个动态面板,如下图所示,(刚开始创建是没有图片的) 2.再状态1下再创建一个动态面板 命名为D2,如下图所示 3.在D2的状态1下新建一个宽370(大概手机宽)高1100 ...

  9. JS 数组常用操作全集

    文章目录 1.push()方法 2.unshift()方法 3.pop() 方法 4.shift() 方法 5.filter() 方法 6.join()方法 7. indexOf() 方法 8.rev ...

  10. Java(多态)

    1.多态 动态编译:类型 即同一方法可以根据发送对象的不同而采用不同的行为方式 一个对象的实际类型是确定的,但可以指向对象的引用可以有很多 多态存在条件 有继承关系 子类重写父类方法 父类引用指向子类 ...