webRTC中音频相关的netEQ（一）：概述

上篇文章（语音通信中终端上的时延(latency)及减小方法）说从本篇开始会切入webRTC中的netEQ主题，netEQ是webRTC中音频技术方面的两大核心技术之一（另一核心技术是音频的前后处理，包括AEC、ANS、AGC等，俗称3A算法）。webRTC是Google收购GIPS重新包装后开源出来的，目前已是有巨大影响力的实时音视频通信解决方案。国内的互联网公司，要做实时音视频通信产品，绝大多数都是基于webRTC来做的，有的是直接用webRTC的解决方案，有的是用webRTC里的核心技术，比如3A算法。不仅互联网公司，其他类型公司（比如通信公司），也会把webRTC里的精华用到自己的产品中。我刚开始做voice engine时，webRTC还未开源，但那时就知道了GIPS是一家做实时语音通信的顶级公司。webRTC开源后，一开始没机会用，后来做OTT语音（APP语音）时用了webRTC里的3A算法。在做了Android手机平台上的音频开发后，用了webRTC上的netEQ，不过用的是较早的C语言版本，不是C++版本，并且只涉及了netEQ中的DSP模块（netEQ有两大模块，MCU（micro control unit, 微控制单元）和DSP(digital signal processing, 信号处理单元)，MCU负责控制从网络收到的语音包在jitter buffer里的插入和提取，同时控制DSP模块用哪种算法处理解码后的PCM数据，DSP负责解码以及解码后的PCM信号处理，主要PCM信号处理算法有加速、减速、丢包补偿、融合等），MCU模块在CP （communication processor, 通讯处理器）上做，两个模块之间通过消息交互。DSP模块经过调试，基本上掌握了机制。MCU模块由于在CP上做，没有source code，我就从网上找来了我们用的版本相对应的webRTC的开源版本，经过了一段时间的理解后，也基本上搞清楚了机制。从本篇开始，我将花几篇讲netEQ（基于我用的早期C语言版本）。这里需要说明的是每个产品在使用webRTC上的代码时都会根据自己产品的特点做一定的修改，我做的产品也不例外。我在讲时一些细节不会涉及，主要讲机制。本篇先对netEQ做一个概述。

实时IP语音通信的软件架构框图通常如下图：

上图中发送方（或叫上行、TX）将从MIC采集到的语音数据先做前处理，然后编码得到码流，再用RTP打包通过UDP socket发送到网络中给对方。接收方（或叫下行、RX）通过UDP socket收语音包，解析RTP包后放入jitter buffer中，要播放时每隔一定时间从jitter buffer中取出包并解码得到PCM数据，做后处理后送给播放器播放出来。

netEQ模块在接收侧，它是把jitter buffer和decoder综合起来并加入解码后的PCM信号处理形成，即netEQ = jitter buffer + decoder + PCM信号处理。这样上图中的软件架构框图就变成下图：

上文说过netEQ模块主要包括MCU和DSP两大单元。它的软件框图如下图：

从上两图看出，jitter buffer（也就是packet buffer，后面就跟netEQ一致，表述成packet buffer，用于去除网络抖动）模块在MCU单元内，decoder和PCM信号处理模块在DSP单元内。MCU单元主要负责把从网络侧收到的语音包经过RTP解析后往packet buffer里插入（insert），以及从packet buffer 里提取（extract）语音包给DSP单元做解码、信号处理等，同时也算网络延时（optBufLevel）和抖动缓冲延时（buffLevelFilt），根据网络延时和抖动缓冲延时以及其他因素（上一帧的处理方式等）决定给DSP单元发什么信号处理命令。主要的信号处理命令有5种，一是正常播放，即不需要做信号处理。二是加速播放，用于通话延时较大的情况，通过加速算法使语音信息不丢而减少语音时长，从而减少延时。三是减速播放，用于语音断续情况，通过减速算法使语音信息不丢而增加语音时长，从而减少语音断续。四是丢包补偿，用于丢包情况，通过丢包补偿算法把丢掉的语音补偿回来。五是融合（merge），用于前一帧丢包而当前包正常收到的情况，由于前一包丢失用丢包补偿算法补回了语音，与当前包之间需要做融合处理来平滑上一补偿的包和当前正常收到的语音包。以上几种信号处理提高了在恶劣网络环境下的语音质量，增强了用户体验。可以说是在目前公开的处理语音的网络丢包、延时和抖动的方案中是最佳的了。

DSP单元主要负责解码和PCM信号处理。从packet buffer提取出来的码流解码成PCM数据放进decoded_buffer中，然后根据MCU给出的命令做信号处理，处理结果放在algorithm_buffer中，最后将algorithm_buffer中的数据放进speech_buffer待取走播放。Speech_buffer中数据分两块，一块是已播放过的数据（playedOut），另一块是未播放的数据（sampleLeft）, curPosition就是这两种数据的分割点。另外还有一个变量endTimestamps用于记录最后一个样本的时间戳，并报告给MCU，让MCU根据endTimestamps和packet buffer里包的timestamp决定是否要能取出包以及是否要取出包。

这里先简要介绍一下netEQ的处理过程，后面文章中会详细讲。处理过程主要分两部分，一是把RTP语音包插入packet packet的过程，二是从packet buffer中提取语音包解码和PCM信号处理的过程。先看把RTP语音包插入packet packet的过程，主要有三步：

1，在收到第一个RTP语音包后初始化netEQ。

2，解析RTP语音包，将其插入到packet buffer中。在插入时根据收到包的顺序依次插入，到尾部后再从头上继续插入。这是一种简单的插入方法。

3，计算网络延时optBufLevel。

再看怎么提取语音包并解码和PCM信号处理，主要有六步：

1，将DSP模块的endTimeStamp赋给playedOutTS，和sampleLeft（语音缓冲区中未播放的样本数）一同传给MCU，告诉MCU当前DSP模块的播放状况。

2，看是否要从packet buffer里取出语音包，以及是否能取出语音包。取出包时用的是遍历整个packet buffer的方法，根据playedOutTS找到最小的大于等于playedOutTS的时间戳，记为availableTS，将其取出来。如果包丢了就取不到包。

3，算抖动缓冲延时buffLevelFilt。

4，根据网络延时抖动缓冲延时以及上一帧的处理方式等决定本次的MCU控制命令。

5，如果有从packet buffer里提取到包就解码，否则不解码。

6，根据MCU给的控制命令对解码后的以及语音缓冲区里的数据做信号处理。

在我个人看来，netEQ有两大核心技术点。一是计算当前网络延时和抖动缓冲延时的算法。要根据网络延时、抖动缓冲延时和其他因素决定信号处理命令，信号处理命令对了能提高音质，相反则会降低音质，所以说信号处理命令的决策非常关键。二是各种信号处理算法，主要有加速（accelerate）、减速（preemptive expand）、丢包补偿（PLC）、融合（merge）和背景噪声生成（BNG），这些都是非常专业的算法。

webRTC中音频相关的netEQ（一）：概述的更多相关文章

webRTC中音频相关的netEQ（二）：数据结构
上篇(webRTC中音频相关的netEQ(一):概述)是netEQ的概述,知道了它主要是用于解决网络延时抖动丢包等问题提高语音质量的,也知道了它有两大单元MCU和DSP组成.MCU 主要是把从网络收到 ...
webRTC中音频相关的netEQ（五）：DSP处理
上篇(webRTC中音频相关的netEQ(四):控制命令决策)讲了MCU模块是怎么根据网络延时.抖动缓冲延时和反馈报告等来决定给DSP模块发什么控制命令的.DSP模块根据收到的命令进行相关处理,处理简 ...
webRTC中音频相关的netEQ（四）：控制命令决策
上篇(webRTC中音频相关的netEQ(三):存取包和延时计算)讲了语音包的存取以及网络延时和抖动缓冲延时的计算,MCU也收到了DSP模块发来的反馈报告.本文讲MCU模块如何根据网络延时.抖动缓冲延 ...
webRTC中音频相关的netEQ（三）：存取包和延时计算
上篇(webRTC中音频相关的netEQ(二):数据结构)讲了netEQ里主要的数据结构,为理解netEQ的机制打好了基础.本篇主要讲MCU中从网络上收到的RTP包是怎么放进packet buffer ...
Spring Framework------>version4.3.5.RELAESE----->Reference Documentation学习心得----->Spring Framework中web相关的知识（概述）
Spring Framework中web相关的知识 1.概述: 参考资料:官网documentation中第22小节内容关于spring web mvc: spring framework中拥有自 ...
O-C相关04:类方法的概述与定义和调用
类方法的概述与定义和调用 1, 类方法的概述类方法(class method)在其他编程语言中常常称为静态方法(例如 Java 或 C# 等). 与实例方法不同的是,类方法只需要使用类名即可调用, ...
白话解读 WebRTC 音频 NetEQ 及优化实践
NetEQ 是 WebRTC 音视频核心技术之一,对于提高 VoIP 质量有明显的效果,本文将从更为宏观的视角,用通俗白话介绍 WebRTC 中音频 NetEQ 的相关概念背景和框架原理,以及相关的优 ...
VoIP语音处理流程和知识点梳理
做音频软件开发10+年,包括语音通信.语音识别.音乐播放等,大部分时间在做语音通信.做语音通信中又大部分时间在做VoIP语音处理.语音通信是全双工的,既要把自己的语音发送出去让对方听到,又要接收对方的 ...
webRTC中语音降噪模块ANS细节详解(一)
ANS(adaptive noise suppression) 是webRTC中音频相关的核心模块之一,为众多公司所使用.从2015年开始,我在几个产品中使用了webRTC的3A(AEC/ANS/AG ...

随机推荐

在Linux服务器上使用Vbox安装虚拟机
先去官网(www.virtualbox.org)上下载对应Linux系统的Vbox版本. 我这边用的是Oracle Linux 7系统(KDE安装) 使用rpm安装virtualbox 发现报错,按照 ...
Delphi7第三方控件
控件安装(安装时建议先关闭Delphi) 1.只有一个DCU文件的组件. DCU文件是编译好的单元文件,这样的组件是作者不想把源码公布.一般来说,作者必须说明此组件适合Delphi的哪种版本,如果版本 ...
如何通过Chrome远程调试android设备上的Web网站
网上的帖子很多,但很多都是老版本的,试过了,根本不管用,花了一天时间,终于在本机试验通过了,特记录下来,以备用.有需要的朋友也可以参考.先上一张图,看看PC端chrome上调试的效果: 左边是手机的模 ...
vue中的$route和$router的区别
1. $route是一个对象可以获取当前页面的路由的路径query.params.meta等参数: 2.$router是VueRouter的一个实例对象在options中可以获取路由的routes ...
PowerDesigner生成PowerBuilder扩展属性~
PowerDesigner版本:11.0.0.1363 步骤: 一.打开PowerDesigner新建模型->物理数据模型(Physical Data Model). 二.在常规选项 DBM ...
Netty 中 EventLoopGroup 的创建
本文是基于 Netty 4.1.6.Final 的源码来分析的. 在分析源码之前做一些准备工作: 先熟悉一下 IDEA 的几个快捷键,能极大的提高我们查看源码的效率: Ctrl + Alt + B:用 ...
ELK简单安装测试
1 介绍组件 Filebeat是一个日志文件托运工具,在你的服务器上安装客户端后,filebeat会监控日志目录或者指定的日志文件,追踪读取这些文件(追踪文件的变化,不停的读). Kafka是一种高吞 ...
TrustManagerService.java
/* * Copyright (C) 2014 The Android Open Source Project * * Licensed under the Apache License, Versi ...
20175120彭宇辰《Java程序设计》第八周学习总结
教材学习内容总结第十五章泛型与集合框架一.泛型泛型的主要目的是可以建立具有类型安全的集合框架,如链表.散列映射等数据结构. 1.泛型类声明 class People<E> Peop ...
asp.net开启多线程异步处理
protected void Page_Load(object sender, EventArgs e) { if (!IsPostBack) { try { Thread categoryThrea ...

webRTC中音频相关的netEQ（一）：概述

webRTC中音频相关的netEQ（一）：概述的更多相关文章

随机推荐

热门专题