用 WebRTC 打造一个音乐教育 App,要解决哪些音质难题?
在去年疫情期间,在线教育行业获得了井喷式的发展,这背后的技术功臣非 RTC 莫属。本文将分享 RTC 技术在音乐教育场景下的实践经验。
作者| 逸城
审校| 泰一
音乐教育场景 - 在线陪练
2020 年的新冠疫情改变了在线教育中素质教育行业的生态,音乐陪练是其中的典型场景。众多线下琴行因无法承担高昂的租金关门,在线音乐教育平台用户激增,这其中的代表有 The One、VIP 陪练、快陪练、美悦陪练、音乐笔记等。根据公开信息,目前 VIP 陪练的日上课量达到 3 万节,快陪练在 2020 年 10 月用户突破 120 万。有投资机构指出,到 2022 年,音乐教育市场预计达 4000 多亿元规模,而在线陪练市场的需求近千亿元。

但是打造一款传递高音质的陪练 App 并非易事,在实际开发过程中音乐陪练类 App 相比普通在线教育 App 的音质的要求更高,下面我将以钢琴教育为例,从技术角度来分析 WebRTC 在乐器教育场景下遇到的问题以及解决方案。
乐器类频谱

以钢琴类为例,频谱主要集中在 5KHz 以下,下图是一段 44.1khz 采样率的钢琴曲的音乐经过 FFmpeg 解码后的频谱图,从下图可以看到,考虑到实际录音场景可能存在高频谐波或者其他环境音的影响,频率范围集中在 7kHz 以下频段:

音质影响因素分析
录音
WebRTC 在音频采集后的前处理流程是:record->ans->aec->agc。我们先分析第一个环节,录音的影响。下面测试基于 Andorid 手机播放钢琴曲,手机距离 Mac 电脑 15cm 左右,在单讲模式下,原始钢琴曲频谱如下:

经过录音后的频谱如下:

图中 400Hz 以下的频谱基本损失殆尽,考虑到声音从手机播放,经过手机扬声器,空气传输,再经过对端 mic 接收,与真实钢琴教育场景不太一样,所以我们录制了一段真实钢琴教育的语料如下:
可以看出真实的钢琴教育录音下频谱保真度还是与手机播放再录制有差异的,因此录音的因素在真实钢琴场景可以暂不考虑。

3A 算法
单讲情况下(aec 未生效):录音音频:

经过 ans 后频谱:

结论:经过 ans 后频率有较大损失,中高频部分损失较为严重。
双讲情况下(经过 ans 和 aec):
ans 后频谱(远端有人说话):

aec 后频谱:

双讲情况对音乐损失也很大,重点是 aec 模块损失大。
编解码器
Opus 是由 SILK+CELT 混合的编码器,学术上的叫法叫做 USAC,Unify Speech and Audio Coding, 不区分音乐语音的编解码器。这个编解码器内有个 Music detector 去判断当前帧是语音还是音乐,语音选择 silk 框架编码,音乐选择 celt 框架编码,通常建议不限制编码器固定采用哪种模式编码。
目前 WebRTC 采用 Application 是 kvoip,默认开启混合编码模式,并未限制固定是 celt only 或者 silk only 模式。
编码器内混合编码模式下的音乐与语音编码算法判决:

测试语料:

选择音乐模式编码 + 混合编码后:

选择语音编码 + 混合编码模式后:

测试反馈显示音乐编码的情况下切换 silk 模式很灵敏,但是如果采用 VoIP 模式下对音乐切换不够灵敏,会出现语音后对音乐下延迟为 silk 编码的情况;因此,语音编码后的几秒种内 silk 编码对高频部分略有损失,相比 celt 编码略差。
小结
综上所述,影响钢琴教育音质的因素主要是降噪模块和回声消除模块。
钢琴教育场景下的技术方案
完整的解决方案需要考虑钢琴教育场景下语音和音乐共存的情况,需要对当前的语音帧做模式判别,识别是语音还是音乐,如果是语音帧则走正常的 3A 处理流程,如果是音乐帧则需要调整 3A 的算法,最大限度保证音乐的完整性。
大致流程图如下:

相关技术问题
分析了影响钢琴教育场景下的因素及技术方案,下面主要从实现的角度分析遇到的相关技术问题。根据上面的分析结论,通常在 VoIP 场景下,ios 和 android 采用了硬件 3A 的方案,但是在乐器教育场景下,则必须采用软件 3A 的方案,否则 3A 算法无法根据音乐和人声动态调整。
1. iOS 平台采集模式问题
WebRTC 在 iOS 平台用的是 AudioUnit 采集,相关代码如下:

根据苹果的 API 说明,iOS 提供了三个 I/O units,其中 Remote I/O unit 是最常用的。连接输入输出音频硬件,对传入和传出的样本值低延迟访问,提供硬件音频格式和应用音频格式之间的格式转化。Voice-Processing I/O unit 是对 Remote I/O unit 的拓展,添加了语音聊天中的回声消除,还提供了自动增益矫正,语音质量调整,静音等特性。Generic Output unit 不连接音频硬件,而是提供了一种将处理链的输出发送到应用程序的机制。通常会使用做离线音频处理。
因此,在乐器教育场景下,需要初始化 AudioUnit 的类型设置为 Remote I/O 模式,这样录音数据不会经过硬件 3A 处理。但是在启用 Remote I/O 模式下后,录音数据如下:

发现启用 Remote I/O 后,系统硬件也不做音量增益,因此导致录进去的音量很低(-14db 左右), 因此,对应的软件 agc 算法增益也需要针对性调整。
2. Andorid 平台采集模式问题
通常,在 Android 平台,VoIP 模式下,通过适配,大部分机型可以使用硬件 3A,这样既可以保证效果,又可以带来更低的功耗和延时。而 Andoird 平台又为 Java 的采集播放和 Opensles 的采集播放两种方式可以选择,通常经验下 opensles 的延迟更小,并且适配性更好。我们接下来也以 opensles 为例来介绍 VoIP 场景和乐器教育场景下的设置不同之处。opensles 提供了 audiosource 和 audiotype 的几种模式供选择:


以 VoIP 场景为例,opensles 的通常选择是 audiosource:VOICE_COMMUNICATION, stream_type:STREAM_VOICE;但是如果是乐器教育场景,则需要采用 audiosource: MIC, stream_type:STREAM_MEDIA 的组合方式,否则容易出现触发启动硬件 3A 的情况。
下图就是小米手机里设置 audiosouce: MIC, stream_type: STREAM_VOICE 下对音乐的采集效果,图中可以看到由于 stream_type 设置的模式不对,在播放的时候就会影响系统采集触发硬件 3A, 对音乐信号造成严重的损伤。

3. 音乐和语音检测模块问题
上篇文章提到,opus 提供了语音和音乐检测模块,根据测试,在编码器设置默认为音乐时对语音和音乐的检测很灵敏,但是如果设置为语音编码模式时当由语音切换为音乐时存在数秒左右的算法检测滞后,仔细分析 opus 代码如下:

编码器在做模式判决时会根据设置的默认编码模式来设置门限值,语音编码下的门限值会调高,这种做法是当由语音切换为音乐时编码器不马上切换音乐模式,以便于最大限度保留语音信息,因为语音信息的帧间相关性会比较强。
因此在钢琴教育场景建议默认采用音乐编码方式,以便于最大程度保留音乐信息,减少 3A 处理对音质造成的损伤。
总结
基于 WebRTC 的音乐教育场景的工程化实践有不少细节需要考虑,从音频信号的采集,到 3A 的适配,再到音频编码器的参数调整,都需要做针对性调优,才能最大限度的做到既能保证语音信号的清晰可辨,又能保证音乐信号的细节丰富而不失真。另外,随着在线教育细分市场的不断成熟,针对部分特殊乐器比如打击类乐器的场景,又会带来新的技术难点,需要 RTC 进一步探索优化。
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。
用 WebRTC 打造一个音乐教育 App,要解决哪些音质难题?的更多相关文章
- “乐”动人心--2017年10款最佳音乐类APP设计盘点
在上下班的路上,听几首自己喜欢的音乐来打发无聊的等公交车和地铁的时间是现代年轻人的常态.音乐作为最能鼓动人心的"语言",也成为了人们在互联网生活里占比例最高的消费活动之一,一款好看 ...
- 巧用渐变色打造精致移动端APP
渐变色是指某个物体的颜色从明到暗,或由深转浅,或是从一个色彩缓慢过渡到另一个色彩,充满变幻无穷的神秘浪漫气息的颜色.在扁平化设计刚刚兴起时,渐变是设计师们避之不及的设计手法.然而自从Instagram ...
- [后端人员耍前端系列]AngularJs篇:使用AngularJs打造一个简易权限系统
一.引言 上一篇博文已经向大家介绍了AngularJS核心的一些知识点,在这篇博文将介绍如何把AngularJs应用到实际项目中.本篇博文将使用AngularJS来打造一个简易的权限管理系统.下面不多 ...
- AngularJs打造一个简易权限系统
AngularJs打造一个简易权限系统 一.引言 上一篇博文已经向大家介绍了AngularJS核心的一些知识点,在这篇博文将介绍如何把AngularJs应用到实际项目中.本篇博文将使用AngularJ ...
- [.NET] 一步步打造一个简单的 MVC 网站 - BooksStore(一)
一步步打造一个简单的 MVC 网站 - BooksStore(一) 本系列的 GitHub地址:https://github.com/liqingwen2015/Wen.BooksStore 简介 主 ...
- 使用parcel打造一个零配置的react工作流
parcel是一个前端打包工具.因其推崇的零配置理念,和webpack形成了鲜明对比.对于我这样一个被后端IDE智能提示宠坏的猿,自然是对webpack提不起爱.平时也都是使用CLI默认配置好webp ...
- Android高级控件(五)——如何打造一个企业级应用对话列表,以QQ,微信为例
Android高级控件(五)--如何打造一个企业级应用对话列表,以QQ,微信为例 看标题这么高大上,实际上,还是运用我么拿到listview去扩展,我们讲什么呢,就是研究一下QQ,微信的这种对话列表, ...
- [.NET] 一步步打造一个简单的 MVC 电商网站 - BooksStore(一)
一步步打造一个简单的 MVC 电商网站 - BooksStore(一) 本系列的 GitHub地址:https://github.com/liqingwen2015/Wen.BooksStore &l ...
- 打造一个上传图片到图床利器的插件(Mac版 开源)
写markdown博客如何将截图快速上传到图床--记一个工具插件的实现(windows版 开源)(2017-05-31 20:23) 打造一个上传图片到图床利器的插件 鉴于写博客截图手动上传到图床的步 ...
- 手把手带你打造一个 Android 热修复框架(上篇)
本文来自网易云社区 作者:王晨彦 前言 热修复和插件化是目前 Android 领域很火热的两门技术,也是 Android 开发工程师必备的技能. 目前比较流行的热修复方案有微信的 Tinker,手淘的 ...
随机推荐
- Static关键词
在程序中使用static 变量 1. 局部变量 普通局部变量是再熟悉不过的变量了,在任何一个函数内部定义的变量(不加static修饰符)都属于这个范畴.编译器一般不对普通局部变量进行初始化,也就是说它 ...
- 【Javaweb】Servlet四 | ServletConfig类|ServletContext类
ServletConfig类是Servlet程序的配置信息类. ServletConfig类的三大作用 1.可以获取Servlet程序的别名servlet-name的值 System.out.prin ...
- 【Javaweb】jsp | 简单学习【笔记保存】
什么是jsp,它有什么用? jsp的全称是java server pages.Java的服务器界面. jsp的主要作用是代替Servlet程序回传html页面的数据 因为Servlet程序回传html ...
- 使用Spring Cache高效处理缓存数据
Spring Cache是Spring框架提供的一种缓存抽象,可以有效地处理缓存数据.使用Spring Cache可以简化开发过程,提高应用程序的性能和可扩展性. 本文将详细介绍如何使用Spring ...
- 上传代码到github和删除.git
在本地建立目录,将想上传的代码放到该文件夹中 git init ###初始化 git add . ###将本地项目工作区的所有文件添加到暂存区 git commit -m "excu&quo ...
- 数据库系列:MySQL不同操作分别用什么锁?
数据库系列:MySQL慢查询分析和性能优化 数据库系列:MySQL索引优化总结(综合版) 数据库系列:高并发下的数据字段变更 数据库系列:覆盖索引和规避回表 数据库系列:数据库高可用及无损扩容 数据库 ...
- Url参数解析组装工具类
import org.apache.commons.lang3.StringUtils; import java.util.HashMap; import java.util.Map; /** * @ ...
- 这些 git 高级命令你知道几个
大家好,我是 dom 哥.今天给大家分享几个 git 的高级应用. git 是目前最流行的版本控制工具.git 玩的 6 不 6,轻则影响自己的开发幸福指数 ,重则影响下班时间 .本文介绍一些日常开发 ...
- DES加密算法优缺点大揭秘:为何它逐渐被取代?
一.引言 DES(Data Encryption Standard)加密算法作为一种历史悠久的对称加密算法,自1972年由美国国家标准局(NBS)发布以来,广泛应用于各种数据安全场景.本文将从算法原理 ...
- .NET周刊 【12月第3期 2023-12-24】
国内文章 CAP 8.0 版本发布通告 - CAP 7岁生日快乐! https://www.cnblogs.com/savorboard/p/cap-8-0.html 今天宣布CAP 8.0版本正式发 ...