音频的价值、AI Codec 的意义与算法能力的边界丨一期一会 • 音频工程师专场
前言
音频技术发展到今天,经历了从模拟音频到数字音频到历程。国际音频工程师协会创建于 1948 年,中国数字音频技术起步相对较晚,长期被国外组织和公司垄断。随着中国的不断发展、科技日益进步,经过近三十年的努力,我们在语音识别重建、音效声场重现、数字音频通信等方面,积累了很多自己的音频技术专家和学者,已经逐步缩小和西方的技术差距。
为了更好的促进行业交流,壮大音频领域的中国力量,普及大众对音频技术的理解和认知,我们推出了面向音频领域专家的「一期一会」活动,希望能为更多的音频技术从业者打造一个充分交流的平台,我们欣喜地看到大家在活动中碰撞出许多有意义、有价值的思想火花,愿「一期一会」能承载和点燃更多音频技术人的梦想。
—— 声网技术合伙人、音频编解码专家
本文基于「一期一会 • 音频工程师专场」中讨论内容整理,观点仅供参考。

01 关于如何讲述音频的价值
互联网音频技术经过最近一、二十年的发展,已经从「听个响」发展到了「听得爽」的阶段。在许多业务场景下的实现已经达到了 90 分以上的水平,继续提高的难度开始陡增,因此继续投入的产出比(ROI)开始遭到质疑。
而在音视频直播行业内卷的大前提下,工程师攀登技术高峰的诉求已然变得曲高和寡。在 ToB 和 ToC 的领域,如何将音频技术的价值充分地、清晰地表达出来变得尤为重要。这里既涉及到所谓的工匠精神缺失,也存在说服企业管理者的挑战。
此外,关于音频质量的评价也缺乏统一的标准、企业发展过程中对短期目标的追求等等制约,都使得音频的价值很容易被忽略。
但整体而言,音频尤其是 WebRTC 领域仍有许多场景化的落地工作可以继续开拓,更多细分领域如音乐等还有许多问题有待解决。考虑到技术落地的代差问题,在工程化实现的环节必然存在诸多的挑战,这也正是可以展示工程师价值的地方。
02 音频工程师的钻研与创新
从国际局势的变化来看,中美脱钩势必在技术方面出现更多卡脖子的环节。从芯片行业就可见一斑,如芯片工艺制造(台积电)、装备材料(光刻机、蚀刻机、离子注入机)、设计 IP 核和 EDA 软件(指令集 ARM、X86 等)。
再回到音频领域,也存在同样卡脖子的环节。那么在这些环节上,国内势必会产生对标的产品、技术和标准(如 AVS),并且会根据国内的场景、应用现状具备差异化。与此同时也会带来更多的机会,音频工程师应该多关注创新技术、为即将到来的风口做好准备。不要满足于在 GitHub 上找个需要的项目就直接「拿来主义」,要多做调研、寻求更佳的实现,培养自己创新的动力和意愿。
03 算法能力的边界
当前音频圈存在竞争加剧、算法能力存在边界等问题。除了寻找新的发力点,工程师本身也需要提升自我修养,来突破能力边界或解决具体业务场景下的特定问题。
从采集到播放,每个环节的算法都还有可优化的空间。一些优化,可能会借助 AI。不过 AI 的优化,会需要从硬件底层来做,比如借助 DSP 来提升性能,让更高复杂度的算法可以落地到移动端(比如高通平台),从而针对部分场景实现更好的音频体验。
04 关于 AI Codec 的意义
即便单纯从低码率这一个极端的方向看,把 Codec 做到极致依然会有意想不到的应用场景会找上门来,例如哪怕是如今的 5G 时代,弱网场景依然非常普遍。从人与人沟通体验的极致追求来看,当前业界的发展也只是解决了可懂度方面的问题,距离沉浸式的体验需求还有很长的路要走。另外,AI Codec 在通用场景(音乐与语音)的潜力尚有许多可以挖掘的潜力。
05 端到端的音频优化道阻且长
从工程的角度来看,音频体验的改善还是要端到端地对每个环节逐一优化,才能整体上提升用户的体验,单纯在某一个环节的优化反而意义不大。然而端到端的优化是一个系统工程,往往会耗费大量的时间和精力,并且需要在总体上进行统筹和调度。
06 基于场景而非具体问题
跟端到端优化之话题类似,工程师在解决问题的时候一定要基于产品的应用场景,而不要基于某个或某些具体的问题。因为前者会让人从系统和全局的维度去思考,带来的收益远比解决具体问题大的多。
07 元宇宙与音频技术
从技术发展的角度来看,音频领域很长时间没有突破性的创新了。元宇宙这个风口也许会带来新的(技术落地)场景,例如沉浸式音频的体验会成为标配;但现有的软硬件环境距离实现元宇宙的设想还有一定的距离;细分到具体的技术点如空间音频,目前技术较为成熟、会很快落地。整个行业都很期待元宇宙能带来新的突破,对工程师而言一定多站在业务的角度进行技术的积累。
08 技术落地的代差问题
回顾音频产业发展的历史,不难发现任何一项成熟技术的大规模应用(尤其是民用)都存在较长时间的代差。对于处在最前沿的音频工程师来说,如何克服技术自嗨和业务落地之间的 GAP 是一个较大的挑战。
但大家容易忽视的地方在于,一个行业的技术变革并不是一蹴而就的,通常表现为持续量变的积累 ── 正因为大家身在其(音频行业)中再加上技术落地的代差,造成的错觉和感知不会那么强烈才会“不识庐山真面目”。五年前谁会想到打电话的形式会是如今手机视频通话的样子?而新生代对沉浸式体验的需求正在一步步变成现实 ── 这在如今的游戏行业已经初现端倪。
09 Hi-Fi 市场的潜在机会
目前 Hi-Fi 耳机市场上呈两极分化的态势,中端价位、尤其是面向年轻人的产品存在明显的市场产品。从全球制造业的格局来看,国内品牌存在很大的机会。
当前的挑战在于巨头凭借产业链优势会更容易会抢占这个市场,所以还是需要具备一些“不容易复制”的壁垒。而且更重要的是,也要学会面向用户把音频体验的故事讲清楚。就像苹果一步步从内容源、音频算法、设备布局发力,直至 Airpods Pro 发布,「空间音频」的故事版图才呈现在用户面前,如今 Airpod 已经成为该领域上最成功的产品。
关于「一期一会」
「一期一会」是声网发起和组织的音频技术工程师线下聚会交流活动,由来自音频行业上、下游的工程师围绕“近半年最有成就感的事、对热点技术和行业发展的思考”核心议题进行探讨。启动半年来已在北京、上海、杭州等地举办过多期,吸引了来自音频软硬件厂商、音视频互联网服务商、高校和科研单位、标准组织等百余位业界专家参与。
对于音视频技术或行业,你有哪些观点或者疑问?欢迎通过私信或留言的方式与我们联系。也许下一期内容就可以为你解答,或邀请你参与我们的线下活动。
音频的价值、AI Codec 的意义与算法能力的边界丨一期一会 • 音频工程师专场的更多相关文章
- 有两个序列A和B,A=(a1,a2,...,ak),B=(b1,b2,...,bk),A和B都按升序排列。对于1<=i,j<=k,求k个最小的(ai+bj)。要求算法尽量高效。
有两个序列A和B,A=(a1,a2,...,ak),B=(b1,b2,...,bk),A和B都按升序排列.对于1<=i,j<=k,求k个最小的(ai+bj).要求算法尽量高效. int * ...
- Page11:状态反馈、输出反馈的概念及性能比较,极点配置的基本概念、意义及其算法[Linear System Theory]
内容包含离散时间线性时不变系统的稳定判据 状态反馈.输出反馈的基本概念及其性能比较 极点配置的基本概念.意义及其算法
- 音频相关基本概念,音频处理及编解码基本框架和原理以及音、重采样、3A等音频处理(了解概念为主)
视频笔记:音频专业级分析软件(Cooledit) 音质定义以语音带宽来区分,采样率越高,带宽越大,则保真度越高,音质越好.窄带(8khz采样),宽带(16khz采样),CD音质(44.1khz采样) ...
- AI学习---回归和聚类算法
其他 资料链接:https://pan.baidu.com/s/1ofN2QFxpzC-OtmTFE2fHfw 提取码:o4c2
- AI:从游戏引擎--到AI
原文链接:http://blog.csdn.net/left_la/article/details/6358911#t9 这是我在Gameres上看到的一篇文章,文章很长,全文分为11个部分,看后感觉 ...
- 清明节特辑 |记忆存储、声音还原、性格模仿……AI可以让人类永生吗?
摘要:如果能用AI "复活"逝去的亲人 你愿意吗? 清明节,很少有人会去特地想这样一个问题:我们为什么要给过世的人修墓,然后每年固定的时间去扫墓?当农耕文化的色彩褪去,清明节的祭祀 ...
- 一篇对iOS音频比较完善的文章
转自:http://www.cnblogs.com/iOS-mt/p/4268532.html 感谢作者:梦想通 前言 从事音乐相关的app开发也已经有一段时日了,在这过程中app的播放器几经修改我也 ...
- 单独编译使用WebRTC的音频处理模块
块,每块个点,(12*64=768采样)即AEC-PC仅能处理48ms的单声道16kHz延迟的数据,而 - 加载编译好的NS模块动态库 接下来只需要按照 此文 的描述在 android 的JAVA代码 ...
- IOS 音频播放
iOS音频播放 (一):概述 前言 从事音乐相关的app开发也已经有一段时日了,在这过程中app的播放器几经修改我也因此对于iOS下的音频播放实现有了一定的研究.写这个系列的博客目的一方面希望能够抛砖 ...
- Davinci DM6446 Codec Engine双核通信环境的搭建
根据前几篇文章,一个DM6446的系统已经架构完成.但是有很多人都喜欢TI的机制,毕竟双核软件开发对很多工程师来说是非常麻烦的事情,既然TI提供开发套件和开发包,那么直接做OEM就可以了,底层的东西不 ...
随机推荐
- 实验:在Arduino上使用printf格式化输出到串口
那么在pcDuino上如何用printf函数将数据从串口送出来呢?这就需要修改Arduino上的串口的库文件了.修改 步骤如下: 1.在 pcduino上arduino的库文件路径是:/usr /a ...
- win系统常用快捷键查询手册
win+ctrl+左/右方向键 虚拟桌面切换
- jenkins - Asp.net 环境搭建(Windows)
jenkins - Asp.net 环境搭建(Windows) 安装环境 通过 Chocolatey自动安装 choco install ojdkbuild11 #或 choco install jd ...
- Office 2016 未授权
用于管理 Office 批量激活的工具 https://docs.microsoft.com/zh-cn/DeployOffice/vlactivation/tools-to-manage-volum ...
- Windows系统更改/迁移用户目录
系统盘为C盘,C盘空间不足,C盘太满了,C盘清理时查看发现C:\Users目录占用几十个GB,以下方法可将Users目录大部分空间转移. 1. 准备工作 更改/迁移用户目录之前先自行备份当前用户的资料 ...
- Codeforces Round #843 (Div. 2) Problem C
C. Interesting Sequence time limit per test 1 second memory limit per test 256 megabytes input stand ...
- C++ 用运算符重载 实现复数相加
#include "stdafx.h" #include <iostream> using namespace std; class Complex {public: ...
- 数组扩展(Java)
Arrays类 基本介绍 数组的工具类java.util.Arrays 由于数组本身中没有什么方法可供我们调用,但API中提供了一个工具类Arrays供我们使用,从而可以对数据对象进行一些基本操作 查 ...
- 解决element-ui表格字段用expand展开行时其他字段也会同时展开的问题
使用element-ui的table表格时,我们通常会在需要展开的列上通过设置 type="expand" 和 Scoped slot 可以开启展开行功能,但是渲染结果会出现其他未 ...
- [CQOI2014]通配符匹配 题解
第一眼:什么鬼东西ヾ(。`Д´。) 第二眼:显然,这道题要分段处理 类似[TJOI2018]碱基序列\ (建议做一做也是Hash+DP)\ 那你怎么第一眼没看出来 Hash处理+DP==AC 直接上代 ...