超分让在线会议语音更明亮，在线会议已成为日常工作中较为普遍的沟通交流方式，接入会议的方式也呈现多样化，比如电脑入会、手机入会又或是电话入会。

雪雅、曜辰｜作者

众所周知，高采样率且高带宽的音频信号富含丰富的频率成分，能够带给人们更身临其境的听觉体验。但在线会议中，电话入会又或是因设备等原因导致原始采集带宽过低的场景中，带给人们的直观感受表现为听对方说话比较闷，严重影响会议体验。在信号处理中，语音超分技术可以用来处理这类情况，它可以最大限度地从低带宽的音频信号中重建出其高频成分，让语音信号听起来更“明亮、逼真”，从而为客户提供更出色更高音质的通话体验。

下面是一个简单的效果演示：

AliSSR 语音超分算法效果演示

作者注：视频中前半部分是窄带信号，后半部分是超分后的宽带信号。

语音超分技术的早期研究多围绕传统信号处理理论展开，如源滤波器模型，通过 codebook 映射或者线性映射的方法来预测高频带频谱包络 [1, 2]。近些年随着深度学习技术在信号处理领域的应用，语音超分技术在深度学习的加持下，效果获得了明显的提升。

最开始，延续了传统信号处理框架，神经网络替换原有框架的一部分，用来预测高频带的谱包络或者幅度谱 [3, 4]，相位扩展沿用传统的方法，保持计算复杂度低的优势 [1]，然而相位信息对于人耳主观听感有着不可忽略的影响。

随后，受图像超分辨率算法的启发，基于端到端的神经网络模型应用到了语音超分任务 [5, 6]，它直接在时域上对信号完成了预测，避免了相位问题，这些方法都是通过最小化某个损失函数（如 L2 loss) 来训练的，后来，引入了 GAN 的训练方式，结合原有的损失函数和对抗损失，达到了更好的效果 [7, 8]。

当前，我们主要针对采样率从 8KHz 提高到 16KHz 的情况（频谱带宽从 4KHz 扩展到 8KHz）。

语音超分算法：AliSSR

基于神经网络的语音超分算法近几年来取得了不错的超分效果，但其中很多算法都是双非算法（非实时非因果），同时往往涉及较大的参数量和计算量，难以在实际应用场景中部署。阿里云视频云音频技术团队基于上述实际问题，研发了两种实时因果的语音超分算法：AliSSR（e2e 版本）和 AliSSR（lightweight 版本），在拥有较少参数量和较低延时的同时，保持其高质量的语音超分效果。

1. 算法原理简介

A. AliSSR（e2e 版本）：是基于端到端的 encoder-decoder 模型。该模型结合实际应用场景，充分考虑了编解码、下采样所带来的损失，并结合 GAN 相关的训练技巧，提升带宽拓展的效果；

B. AliSSR（lightweight 版本）：传统信号处理与深度学习结合的算法模型。该模型简单易拓展，资源消耗较小。

音频技术团队研发的基于神经网络的语音超分算法无需额外数据传输, 可以实时流式地对窄带语音信号进行高质量地带宽拓展。

2. 算法性能

3. 应用场景

在某些低带宽的场景中 , 例如在 PSTN 场景中，往往感觉对方声音很 “闷”，这主要是由于发送端传输的语音信号采样率低，没有高频成分的语音信息。语音超分技术通过重建语音的高频成分，为客户提供更高音质、更出色的通话听觉体验。语音超分常用的使用场景如下表所示。

4. 超分效果显示

AliSSR 实时超分算法支持多语种、多性别。下面分别对男生英文和女生中文测试语料的超分前后效果进行展示，主观听感层面，超分之后的语音明显比窄带音频要更 “明亮”，其中 AliSSR（e2e 版本）超分后明亮度要比 AliSSR（lightweight 版本）更好。

样本 1：英文

超分效果样本1：男生英文

视频中的三段音频分别是：窄带语音、AliSSR 实时处理后的 e2e 版本和 lightweight 版本

样本 2：中文

超分效果样本2：女生中文

视频中的三段音频分别是：窄带语音、AliSSR 实时处理后的 e2e 版本和 lightweight 版本

语音超分技术在 PSTN、在线会议、老旧音频修复以及媒体生产等领域，有着较为广泛的落地场景。AliSSR 语音超分算法在神经网络的助力下，仅需极少的资源消耗，即可实时地给用户带来更“明亮、逼真”的音质体验。未来，音频技术将会继续铸造更强的超分能力，探索从窄带到全频带、从语音到音乐再到全类音频的全场景覆盖的超分技术。

阿里云视频云音频技术团队将继续探索基于深度学习 + 信号处理的的音频技术，为在线会议等场景提供更清晰更极致的音频体验。

参考文献

[1] J.Makhoul, M.Berouti, “High-frequency regen-eration in speech coding systems”, in Proceedings of ICASSP, 1979, vol. 4, pp. 428–431.

[2] B. Iser, G. Schmidt, “Neural networks versus codebooks inan application for bandwidth extension of speech signals,” in Proc. of Interspeech, 2003.

[3] Kehuang Li, Chin-Hui Lee, “A deep neural networkapproach to speech bandwidth expansion”, in Proceedings of ICASSP, 2015, pp. 4395–4399.

[4] J. Abel, T. Fingscheidt, “Artificial speech band-width extension using deep neural networks for wide-band spectral envelope estimation”, IEEE Transactionson Acoustics, Speech, and Signal Processing, vol. 26,no. 1, pp. 71–83, 2017.

[5] V. Kuleshov, S.Z. Enam, and S. Ermon, “Audio super resolution using neural nets”, in Workshop of ICLR, 2017.

[6] Heming Wang, Deliang Wang, "Time-frequency loss for CNN based speech super-resolution", in Proceedings of ICASSP, 2020.

[7] Eskimez, Sefik Emre et al. “Adversarial Training for Speech Super-Resolution.” IEEE Journal of Selected Topics in Signal Processing 13 (2019): 347-358.

[8] Li, Y., Tagliasacchi, M., Rybakov, "Real-Time Speech Frequency Bandwidth Extension", ICASSP, 2021.

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实践技术文章，在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

AliSSR 语音超分算法：让在线会议语音更明亮更自然的更多相关文章

超强视频超分AI算法，从此只看高清视频
最近发现一个特别强的视频超分算法----BasicVSR,在真实世界数据集中,实现了前所未有的视觉重建效果,最近它还拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022. 视 ...
HMS Core机器学习服务图像超分能力，基于深度学习提升新闻阅读体验
在移动端阅读资讯时,人们对高分辨率.高质量的图像要求越来越高.但受限于网络流量.存储.图片源等诸多因素,用户无法便捷获得高质量图片.移动端显示设备的高分辨率图片获得问题亟待解决.不久前,HMS Cor ...
[OpenCV实战]44 使用OpenCV进行图像超分放大
图像超分辨率(Image Super Resolution)是指从低分辨率图像或图像序列得到高分辨率图像.图像超分辨率是计算机视觉领域中一个非常重要的研究问题,广泛应用于医学图像分析.生物识别.视频监 ...
一对一voip，直播连麦，在线会议，兼容webrtc，IM音视频
功能 IM消息系统一对一高清音视频实时通信,可无缝切换P2P传输,节省服务器带宽一对多互动直播多对多在线会议手机实时录屏传输高度定制化网络检测,动态码率与动态帧率,抗网络抖动,微信级效果 ...
使用Unified Communications Managed API获取Lync在线会议的链接地址
最近在项目上遇到一个问题,需要能够在程序中获取Lync会议的链接地址.Lync是微软出品的一套即时通信(IM)客户端软件,配合Microsoft Lync Server使用,其前身是Microsoft ...
比SRCNN效果好的传统超分辨率算法汇总
1.基于深度协作表达的人脸图像超分辨率算法研究与应用_百度学术采用一种深度协作表达算法框架,构造深度的多线性模型分段拟合高低分辨率图像块之间的非线性关系,本文算法简洁高效,提供了一种新的深度学习模 ...
超简单集成HMS ML Kit文字超分能力，一键提升文本分辨率
前言大家有没有遇到过这种情况,在浏览微博或者公众号时看到一段有趣的文字,于是截图发到朋友圈想和好友分享.但是在发布图片时,软件会对图片强制进行压缩,导致图片分辨率下降,文字变得模糊难以阅读.那么有没 ...
ACNet：用于图像超分的非对称卷积网络
编辑:Happy 首发:AIWalker Paper:https://arxiv.org/abs/2103.13634 Code:https://github.com/hellloxiaotian/A ...
图像超分辨率算法：CVPR2020
图像超分辨率算法:CVPR2020 Unpaired Image Super-Resolution using Pseudo-Supervision 论文地址: http://openaccess.t ...
媒体应用视频超分AI神器！360P视频一键转换HD
作为多媒体应用的开发者,你是否想为媒体播放器快速开发创新AI功能?例如: 在播放低画质视频过程中对其进行逐帧超分让满屏飘飞的弹幕自动绕过画面的主体人物 HMS Core 6.0.0开放的多媒体管线服 ...

随机推荐

Optional源码分析（涉及Objects源码和Stream源码）
研究Optional源码之前先谈一谈Objects源码. 主要代码: @ForceInline public static <T> T requireNonNull(T obj) { if ...
记录一个MySQL中order by 和 limit 连用导致分页查询不生效的坑
具体现象和这位同学的一致,具体的解决办法也是参考这位同学的做法参考文章地址:https://www.cnblogs.com/yuluoxingkong/p/10681583.html
9、For语句
1.for循环概念程序的流程控制结构一共有三种: 顺序结构,选择结构,循环结构. 顺序结构:代码从上向下逐行的执行选择结构:条件满足,某些代码才会被执行.0-1次 if语句,switch语句循环 ...
组合式api-子父组件之间通信props和emit
整体来说和vue2也是比较相似的. 使用props传递数据到子组件父组件给定数据. 子组件中使用defineProps来接收父组件传递的数据. 子组件emit触发事件通知父组件思想和vue2完全一 ...
Android联系人增删改查
1:申请权限 <uses-permission android:name="android.permission.READ_CONTACTS"/> <uses-p ...
postman——预处理和断言
一.预处理 Pre-request Scrip 1.Pre-request Script是集合中请求发送之前需要执行的代码片段 2.请求参数中包含一个随机数或者请求header中包括一个时间戳,或者你 ...
Python——第二章：集合 Set
set集合,集合的特点是无序的写法:s = {1,2,3} 但是如果内容是空的,它不是set集合,而是dict字典 s = {} print(type(s)) #输出结果 <class 'di ...
IDM HOSTS本地注册屏蔽的网址
127.0.0.1 registeridm.com127.0.0.1 www.registeridm.com127.0.0.1 www.internetdownloadmanager.com127.0 ...
JavaFx FXML入门（五）
JavaFx FXML入门(五) JavaFX 从入门入门到入土系列 JavaFx的FXML类似安卓中的视图文件,可以添加样式,添加css,添加id然后在java代码中绑定点击事件.可以使用工具编辑: ...
Linux 逻辑卷管理
如果用标准分区在硬盘上创建了文件系统,为已有的文件系统添加额外的空间是一件十分痛苦的事情.只能在已有的硬盘上的可用空间范围内调整分区大小,如果硬盘空间不够的话,就只能换一个大容量的硬盘,然后手动将已有 ...

AliSSR 语音超分算法：让在线会议语音更明亮更自然