WebRTC VoiceEngine综合应用示例（一）—

把自己这两天学习VoiceEngine的成果分享出来，供大家参考，有什么问题也欢迎大家指出，一起学习一起进步。

本文将对VoiceEngine的基本结构做一个分析，分析的方法是自底向上的：看一个音频编码器是如何一层层被封装到VoiceEngine中的。

首先我们来看一下VoiceEngine的核心API，基本上就在webrtc\voiceengine\include的几个头文件中了。
具体来说，
voe_base
-支持G.711编码的、RTP传输的全双工VoIP应用，若要支持其他编码器，则需要VoECodec的支持
-初始化和销毁VoiceEngine实例
-通过文本或回调函数记录trace信息
-支持多channel（mixing或发送至多目标地址）

voe_codec
-支持其他编码器
-Voice Activity检测
-Possibility to specify how to map received payload types to codecs.

voe_dtmf
-Telephone event transmission.
-DTMF tone generation.

voe_errors
-错误信息

voe_external_media
-注册额外的音频处理功能

voe_file
-文件的播放、录制、转换

voe_hardware
-音频设备的操作
-设备信息
-CPU负载监控

voe_neteq_stats
-获取网络信息和音频解码信息

voe_network
-额外协议的支持
-Packet timeout notification.
-Dead-or-Alive connection observations.

voe_rtp_rtcp
- Callbacks for RTP and RTCP events such as modified SSRC or CSRC.
- SSRC handling.
- Transmission of RTCP sender reports.
- Obtaining RTCP data from incoming RTCP sender reports.
- RTP and RTCP statistics (jitter, packet loss, RTT etc.).
- Redundant Coding (RED)
- Writing RTP and RTCP packets to binary files for off-line analysis of the call quality.

voe_video_sync
-RTP header modification (time stamp and sequence number fields).
-Playout delay tuning to synchronize the voice with video.
-Playout delay monitoring.

voe_volume_control
-扬声器、麦克风音量控制
-静音

voe_audio_processing
-噪声抑制Noise Suppression)
-自动增益控制AGC
-回声消除EC
-接收端的VAD、NS、AGC
-语音、噪声、回音level的测量
-audio processing调试信息的生成与记录
-检测键盘动作

而各类音频编码器都在webrtc\modules下的各个项目中，包括了g711,g722,ilbc,isac,red（redundant audio coding）,pcm16b,用于噪音生成的CNG,以及位于third_party目录下的opus。以G722音频编码器为例，在webrtc\modules\audio_coding\codecs\g722\g722_enc_dec.h文件中定义了编解码过程中的两个关键结构体G722EncoderState和G722DecoderState，如下

typedef struct

{

    /*! TRUE if the operating in the special ITU test mode, with the band split filters

    disabled. */

    int itu_test_mode;

    /*! TRUE if the G.722 data is packed */

    int packed;

    /*! TRUE if encode from 8k samples/second */

    int eight_k;

    /*! 6 for 48000kbps, 7 for 56000kbps, or 8 for 64000kbps. */

    int bits_per_sample;

    /*! Signal history for the QMF */

    int x[];

    struct

    {

        int s;

        int sp;

        int sz;

        int r[];

        int a[];

        int ap[];

        int p[];

        int d[];

        int b[];

        int bp[];

        int sg[];

        int nb;

        int det;

    } band[];

    unsigned int in_buffer;

    int in_bits;

    unsigned int out_buffer;

    int out_bits;

} G722EncoderState;

typedef struct

{

    /*! TRUE if the operating in the special ITU test mode, with the band split filters

    disabled. */

    int itu_test_mode;

    /*! TRUE if the G.722 data is packed */

    int packed;

    /*! TRUE if decode to 8k samples/second */

    int eight_k;

    /*! 6 for 48000kbps, 7 for 56000kbps, or 8 for 64000kbps. */

    int bits_per_sample;

    /*! Signal history for the QMF */

    int x[];

    struct

    {

        int s;

        int sp;

        int sz;

        int r[];

        int a[];

        int ap[];

        int p[];

        int d[];

        int b[];

        int bp[];

        int sg[];

        int nb;

        int det;

    } band[];

    unsigned int in_buffer;

    int in_bits;

    unsigned int out_buffer;

    int out_bits;

} G722DecoderState;

对应的G722编解码流程图如下

图中左侧的WebRtcG722xxx函数都定义于g722_interface.h中，而右边的WebRtc_g722xx函数都定义于g722_enc_dec.h中，真正的编解码功能都在WebRtc_g722_encode\decode中实现。图中的G722EncInst\DecInst其实就是前面说到的G722EncoderState和G722DecoderState。

像上面这样的一个G722音频编码器被封装到了AudioEncoderG722类中，此类继承了AudioEncoder。类似的还有G711编码器被封装到了AudioEncoderPcm类中，此类同样继承了AudioEncoder；iLBC被封装到了AudioEncoderIlbc类中，此类同样继承了AudioEncoder。AudioEncoder的定义位于webrtc\modules\audio_encoder_interface，包含了一个音频编码器的基本参数和接口。AudioEncoder进一步被AudioCoding类调用，此类位于webrtc\modules\audio_coding_module,顾名思义，AudioCoding是一个专门负责音频编码的类，具体来说，是在如下两个接口之中调用了AudioEncoder类

virtual bool RegisterSendCodec(AudioEncoder* send_codec) = ;

virtual const AudioEncoder* GetSenderInfo() const = ;

这两个接口的具体实现则在AudioCodingImpl类中，这个类同样继承了AudioCoding，但是当我们去看它们的具体实现时，却发现

bool AudioCodingImpl::RegisterSendCodec(AudioEncoder* send_codec)

{

    FATAL() << "Not implemented yet.";

    return false;

}

const AudioEncoder* AudioCodingImpl::GetSenderInfo() const

{

    FATAL() << "Not implemented yet.";

    return reinterpret_cast<const AudioEncoder*>(NULL);

}

转而实现的是

bool AudioCodingImpl::RegisterSendCodec(int encoder_type,

    uint8_t payload_type,

    int frame_size_samples)

{

    std::string codec_name;

    int sample_rate_hz;

    int channels;

    if (!MapCodecTypeToParameters(

        encoder_type, &codec_name, &sample_rate_hz, &channels))

    {

        return false;

    }

    webrtc::CodecInst codec;

    AudioCodingModule::Codec(

        codec_name.c_str(), &codec, sample_rate_hz, channels);

    codec.pltype = payload_type;

    if (frame_size_samples > )

    {

        codec.pacsize = frame_size_samples;

    }

    return acm_old_->RegisterSendCodec(codec) == ;

}

和

const CodecInst* AudioCodingImpl::GetSenderCodecInst()

{

    if (acm_old_->SendCodec(&current_send_codec_) != )

    {

        return NULL;

    }

    return &current_send_codec_;

}

调用的是acm_old_中的一些方法，而这个acm_old_的定义也在AudioCodingImpl类中，如下

// TODO(henrik.lundin): All members below this line are temporary and should

// be removed after refactoring is completed.

rtc::scoped_ptr<acm2::AudioCodingModuleImpl> acm_old_;

CodecInst current_send_codec_;

可以看到，都是一些将来可能会被取消掉的类，但是我们现在还是要看一下它们的内容，前面看到acm_old_是一个AudioCodingModuleImpl类的对象，继承的是AudioCodingModule类，这个类和AudioCoding的功能类似，只不过没有使用AudioEncoder来表示各个编码器，而是使用了CodecInst结构体。这都是在老版的webrtc中就有的东西。

// Each codec supported can be described by this structure.

struct CodecInst

{

    int pltype;

    char plname[RTP_PAYLOAD_NAME_SIZE];

    int plfreq;

    int pacsize;

    int channels;

    int rate;  // bits/sec unlike {start,min,max}Bitrate elsewhere in this file!

    bool operator==(const CodecInst& other) const

    {

        return pltype == other.pltype &&

            (STR_CASE_CMP(plname, other.plname) == ) &&

            plfreq == other.plfreq &&

            pacsize == other.pacsize &&

            channels == other.channels &&

            rate == other.rate;

    }

    bool operator!=(const CodecInst& other) const

    {

        return !(*this == other);

    }

};

再接着来看AudioCodingModuleImpl中RegisterSendCodec和SendCodec的实现

// Can be called multiple times for Codec, CNG, RED.

int AudioCodingModuleImpl::RegisterSendCodec(const CodecInst& send_codec)

{

    CriticalSectionScoped lock(acm_crit_sect_);

    return codec_manager_.RegisterEncoder(send_codec);

}

// Get current send codec.

int AudioCodingModuleImpl::SendCodec(CodecInst* current_codec) const

{

    CriticalSectionScoped lock(acm_crit_sect_);

    return codec_manager_.GetCodecInst(current_codec);

}

可以看到调用的是codec_manager_中的对应方法，它是一个CodecManager类的对象，定义同样位于webrtc\modules\audio_coding_module中。总结来说，新版webrtc中提出了利用AudioCoding对编码器进行管理的新思路，但是具体实现还没有完成，目前还是使用老办法。
具体来看看codec_manager_.RegisterEncoder(send_codec)，除了一些基本的检查之外，可以看到主要调用的是codec_owner_.SetEncoders()方法。
codec_owner_是一个CodecOwner类的对象，位于webrtc\modules\audio_coding_module中。codec_owner_.SetEncoders()中调用的是CreateSpeechEncoder方法。目前来看的话，就是把具体的编码器的指针做一个赋值操作，不像ffmpeg那样维护一个编码器链表。

回过头来，再看看AudioCodingModule类都被谁调用了，我们的目标就是一路找到VoiceEngine中对应的调用。
比较引人注目的是两个类对它的调用，一是voe命名空间中的Channel类，这一个信道方面的类我们以后再看，另一个就是VoECodecImpl类中对其的调用，这个类继承了VoECodec。VoECodecImpl类被VoiceEngineImpl类直接继承，VoECodec则是VoiceEngine的核心成员之一。

以上分析对应于下图，图中的红线代表继承关系、绿线代表调用关系

以上都是编码器的部分，中间还注意到一些解码器的部分。例如与webrtc\modules\audio_encoder_interface对应的webrtc\modules\audio_decoder_interface,其中的AudioDecoder类，也同样被很多编码器对应的解码器类所集成，例如AudioDecoderG722类等等，这些都在webrtc\module\neteq目录中，我们暂且按下不表，接着来说音频相关内容中的发送端。

来看一下诸如回音消除AEC、增益控制AGC、高通滤波、噪声抑制DeNoise（Noise Suppression）、静音检测VAD、等等的预处理步骤。
      这里以回音消除技术为例进行说明，webrtc中的回音消除有针对移动端和非移动端的两个实现，分别在webrtc\modules\audio_processing的aec和aecm两个目录中，除此之外，对于支持SSE的x86平台，还有对应的SSE实现，位于webrtc\modules\audio_processing_sse2目录下。
      具体的回音消除代码被封装到了EchoCancellationImpl类中，除了具体的实现之外，EchoCancellationImpl类中还包含一些handle操作的内容，这部分则继承自ProcessingComponent类。而EchoCancellationImpl的父类则是EchoCancellation，这一父类的对象直接在VoEAudioProcessingImpl类中被调用，其定义位于webrtc\voice_engine下。VoEAudioProcessingImpl的父类就是VoEAudioProcessing，同样是VoiceEngine的核心成员之一。其中的关系已经非常明了了。
      这些预处理相关的内容相对于编码器的部分来说更加简单了。

下面再来看看音频解码的部分。前面说到具体的解码器类都在webrtc\module\neteq目录中，实际上解码端的其他一些内容，诸如抖动缓冲区等，都在这个目录下。而解码端的另一项重要功能，即混音功能，则在webrtc\modules\audio_conference_mixer目录下。
      neteq模块即当年GIPS的核心技术，将解码、自适应抖动缓冲和丢包隐藏结合在一起，实现优秀的语音质量和低延时。
      还是以我最熟悉的、单纯的解码模块来入手，前面提到的AudioDecoder类和AudioEncoder类相似，也在audio_coding_module、codec_manager、codec_owner中得到了调用，除此之外，在neteq的一干涉及到解码的内容之中都能看到他的身影。
      neteq作为音频接收端的一个子模块，接下来在AcmReceiver类中得到了调用，而这个类是AudioCodingModuleImpl的成员之一，由此，即可追溯得到它与VoiceEngine的关系。

以上完成了VoiceEngine中音频编解码、预处理、neteq内容的分析总结。

下面再看看音频设备部分，这部分代码位于webrtc\modules\audio_devices，相关的类是AudioDeviceModule，其中支持了多个平台的音频设备，也包括了很多功能，例如麦克风和扬声器的音量控制、静音控制、采样率选择、立体声、混音等等。具体的实现我们暂且不看，只看它与VoiceEngine的接口关系。
需要注意的是，尽管VoiceEngine里面有一个VoEHardware类，但是对音频设备的初始化却是在VoEBase类中实现的。

virtual int Init(AudioDeviceModule* external_adm = NULL, AudioProcessing* audioproc = NULL) = ;

混音在AudioConferenceMixer类中，受VoiceEngine的OutputMixer类调用
其他一些辅助的类：AcmDump用于输出调试信息；MediaFile类用于音频文件的输入输出，同样受VoiceEngine的OutputMixer类的调用（中间经过了FileRecorder和FilePlayer）

rtp\rtcp中包含了RTP、RTCP传输中的全部内容，例如网络信道数据的报告、重传请求、视频关键帧的request、码率控制等等。暂且按下不表，后续再进行详细分析。跟它配套的还有remote_bitrate_estimator\paced_sender\bitrate_controler。
而RtpRtcp这个类也很自然地被VoiceEngine的Channel类调用了。

至此，webrtc\module下与音频传输的模块基本都分析了一遍，也看了一下它们是怎么与VoiceEngine联系到一起的，

在下一篇文章中，将使用VoiceEngine完成一个语音通话示例。

原文转自 http://blog.csdn.net/nonmarking/article/details/50577860

WebRTC VoiceEngine综合应用示例（一）——基本结构分析（转）的更多相关文章

WebRTC VoiceEngine综合应用示例（二）——音频通话的基本流程（转）
下面将以实现一个音频通话功能为示例详细介绍VoiceEngine的使用,在文末将附上相应源码的下载地址.这里参考的是voiceengine\voe_cmd_test. 第一步是创建VoiceEngin ...
WebRTC VideoEngine综合应用示例（一）——视频通话的基本流程（转）
本系列目前共三篇文章,后续还会更新 WebRTC VideoEngine综合应用示例(一)——视频通话的基本流程 WebRTC VideoEngine综合应用示例(二)——集成OPENH264编解码器 ...
全互联结构DVPN综合配置示例
以下内容摘自正在全面热销的最新网络设备图书“豪华四件套”之一<H3C路由器配置与管理完全手册>(第二版)(其余三本分别是:<Cisco交换机配置与管理完全手册>(第二版).&l ...
PIE SDK组件式开发综合运用示例
1. 功能概述关于PIE SDK的功能开发,在我们的博客上已经分门别类的进行了展示,点击PIESat博客就可以访问,为了初学者入门,本章节将对从PIE SDK组件式二次开发如何搭建界面.如何综合开发 ...
Django笔记&教程 5-3 综合使用示例
Django 自学笔记兼学习教程第5章第3节--综合使用示例点击查看教程总目录 1 - 生成学号场景场景描述: 教务管理系统中,学生注册账号,学生选择年级后,生成唯一学号. 细节分析: 学生学号由 ...
结合WebSocket编写WebGL综合场景示例
在WebGL场景中导入多个Babylon骨骼模型,在局域网用WebSocket实现多用户交互控制. 首先是场景截图: 上图在场景中导入一个Babylon骨骼模型,使用asdw.空格.鼠标控制加速度移动 ...
WebRtc VoiceEngine代码解析
WebRtc中VoiceEngine可以完成大部分的VOIP相关人物,包括采集.自动增益.噪声消除.回声抑制.编解码.RTP传输.下边我们通过代码来解析Voe中处理流程: 创建VoiceEngine和 ...
WebRTC源码分析：音频模块结构分析
一.概要介绍WebRTC的音频处理流程,见下图: webRTC将音频会话抽象为一个通道Channel,譬如A与B进行音频通话,则A需要建立一个Channel与B进行音频数据传输.上图中有三个Chann ...
WebRTC VoiceEngine使用简单Demo
Google收购的GIPS公司的音频处理技术是很牛的,现在开源了,这么好的技术应该拿来用的,这里就简单的介绍一下怎样使用VoiceEngine,欢迎大家拍砖指导. WebRTC相关的VideoEngi ...

随机推荐

对象、句柄、ID之间的区别
对象是C++的概念,C++的类对象句柄是Windows SDK的概念,指向某种资源的一种“指针”(有时候底层不一定是指针) 资源ID在MFC里仅仅是一个宏,也就是个整数. 其实,句柄是控件在数据结构 ...
luogu4608 [FJOI2016]所有公共子序列问题
题目描述: luogu loj 题解: 序列自动机(?)+高精+普及dp. 这个是猫老师的序列自动机(字符串从1开始): ]) { memset(t[n],-,sizeof(t[n])); ;i> ...
【卡常 bitset 分块】loj#6499. 「雅礼集训 2018 Day2」颜色
好不容易算着块大小,裸的分块才能过随机极限数据:然而这题在线的数据都竟然是构造的…… 题目描述有 $n$ 个数字,第 $i$ 个数字为 $a_i$. 有 $m$ 次询问,每次给出 $k_i$ 个区间 ...
【windows】【md5】查看文件的md5值
certutil -hashfile filename MD5 certutil -hashfile filename SHA1 certutil -hashfile filename SHA256 ...
IDEA常用快捷键（不全）
这里使用的是默认的idea快捷键,如果修改了keymap为其他,那么不适用. 1.格式化代码:Ctrl+Alt+L(可能与QQ的冲突,建议QQ只保留方便的截图,皮) 2.在当前行最后添加分号,或自动补 ...
Spring MVC＋Mybatis 多数据源配置及发现的几个问题
1.CustomerContextHolder 数据源管理类,负责管理当前的多个数据源,基于ThreadLocal实现,对每个线程设置不同的目标数据源 public class CustomerCon ...
TTL与COMS的区别
1.电平的上限和下限定义不一样,CMOS具有更大的抗噪区域. 同是5伏供电的话,ttl一般是1.7V和3.5V的样子,CMOS一般是 2.2V,2.9V的样子,不准确,仅供参考. 2.电流驱动能力不 ...
managed unmanaged
Enable function-level control for compiling functions as managed or unmanaged. #pragma managed # ...
什么是Maven?
Maven是基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具. 发文时,绝大多数开发人员都把 Ant 当作 Java 编程项目的标准构建工具.遗憾的是, ...
css图像处理与动画
先讨论几个css 问题 1,css 清除浮动的方法 2,css 居中 3,多行省略号 4,小布局技巧 2D 动画功能属性兼容性:transform.transition.animation trans ...

WebRTC VoiceEngine综合应用示例（一）——基本结构分析（转）

WebRTC VoiceEngine综合应用示例（一）——基本结构分析（转）的更多相关文章

随机推荐

热门专题