在近期揭榜的2021国际音频检索评测大赛(MIREX)上,网易数帆易智语音团队携手网易云音乐音视频实验室,凭借生产级AI技术创新能力,在歌词识别和歌单识别两个赛道大幅打破世界纪录夺得冠军。

MIREX是国际音频检索领域的顶尖赛事,采用参赛者提交模型、验证集公开、测试集不公开的方式,为音频信息检索及音乐信号处理领域中的各种前沿技术提供公正、可信的评估,自2005年启动以来吸引了世界知名大学、研究机构和科技公司企业的广泛参与。领域内知名的团队,如新加坡国立大学、伦敦大学玛丽皇后学院等都曾参加过此项赛事。

大幅刷新世界纪录

MIREX 2021中,网易数帆携手云音乐团队参加了Automatic Lyrics Transcription(歌词识别)和Set List Identification(歌单识别)两个赛道的比赛,后者任务为针对给定演唱会现场音频和歌手的studio歌曲版本,按时间顺序输出演唱会中演唱的歌曲曲目(task1),以及每首曲目的开始和结束时间(task2)。

在歌词识别赛道,网易实现了WER(词错误率,Word Error Rate)从37.02(2020年最佳成绩)到11.45的突破。于实验而言,这是2倍以上的提升,但对于产品化,这是不可用和可用的巨大区别。

歌单识别赛道则由于领域技术沉寂曾缺席MIREX数年,于本届恢复并成了网易表演的舞台。如下表所示,网易提交模型的各项指标较往年均有显著提升,单项指标的差别甚至超过了12倍。

验证集历年最佳成绩对比:

年度 ED sBD eBD
2021 3.42 14.47 78.54
2017 NULL 195.390 207.130
2016 11.57 137.252 167.349
2015 11.57 137.252 167.349

其中,ED为task1中预测出的song序列和ground truth的编辑距离,数值越小越好;sBD和eBD分别为task2中预测出的song的开始时间和结束时间的评价误差,单位秒,也是越小越好。

测试集历年最佳成绩对比:

年度 ED sBD eBD
2021 3.69 20.32 31.52
2017 NULL 246.220 251.686
2016 9.69 127.860 157.112
2015 9.69 127.860 157.112

多项创新提升模型抗干扰能力

网易数帆易智团队参赛人员介绍,这项赛事的任务与语音识别不同,歌词识别赛道的数据集来自国外K歌APP,这意味着训练数据有更嘈杂的背景,更多的噪音干扰,更低质量的歌词音频,如漏唱、错唱、即兴对白/独白等——即便唱词与原始词曲高度吻合,任务复杂度与普通语音识别依然不可同日而语,因为背景音乐仍然存在,而且同样的词语在不同曲风不同节奏下往往呈现出不同的音高、音调和语速。如此复杂的场景,对模型训练带来了巨大的挑战,模型必须具备很强的针对背景音乐及噪音的抗干扰能力,才能正确识别歌词。

针对歌词识别,网易在数据和模型方面做了大量针对性的优化,基于语音识别技术方案进行细化,把框架用到极致,采用预训练语言模型的思想提升抗干扰能力,并分阶段进行调优,以提升模型精度,从而大幅刷新世界纪录。

具体而言,在建模时候,先带伴奏的音频信息直接输入模型,尽可能保持原始信息,再把歌声单独带入模型。针对背景音乐引入多种噪声的label建模,同时借鉴流行的预训练语言模型思想,通过Mask训练方法来训练声学模型,提升模型的上下文感知能力和抗干扰能力。针对歌声则采用分阶段训练调优,把说话模型当做种子模型,在此基础上使用歌词分阶段进行模型调优。

针对K歌数据中歌词可能存在的瑕疵,或多余的信息,如词/曲作者信息对歌词而言是多余的,这些内容对模型训练也是一种干扰,需要有一种方法能将其滤除。为此网易数帆开发了一套自动歌词数据筛选的流程和方法,依靠预训练模型的置信度对数据过滤筛选。这也是一个迭代的过程,模型精度在不断的筛选中得到提升。

针对歌单识别,业界传统的方案是基于信号处理技术,然而该技术迟迟没有很大的新突破,这也是该赛道沉寂已久的原因。网易此次将歌词识别+文本检索的方案引入这一领域,从而取得了飞跃式的提升。

基于音乐业务的生产级创新

大幅破纪录并不是全部的结果,网易数帆这套技术方案还具有良好的可扩展能力,在训练数据充足情况下(比赛所用数据集不是很大)会有更好的表现,也可以非常方便地扩展到日韩歌词/歌单领域。事实上,这些技术已经在网易云音乐业务落地应用。换言之,这是工业界生产级的技术突破,而非实验室的AI学术研究。

多年来,网易云音乐在业务发展中,始终致力于借助互联网和数字化技术推动中国音乐产业多元化繁荣。平台自2016年末上线“网易音乐人”产品服务,到2021年年底聚集了超过40万原创音乐人。网易云音乐不断改善产品功能和体验,拓展音乐的价值,如社区视频歌曲检索、look直播等,2020年就在线上系统使用了歌词识别的功能。

《华语乐坛趋势报告(2022)》

在此过程中,网易云音乐也遇到了上述MIREX赛道类似的挑战,如不同原创音乐人对同一首歌的演绎,音色、节奏会有差别,甚至歌词也有变动,当然中英文混杂也是常见的状况,这些都是干扰。因此,网易云音乐与网易数帆易智团队合作,通过这套技术创新来提升产品体验。

网易云音乐音视频实验室专家介绍,参赛方案中所包含的技术在云音乐落地主要收益在于节省人力成本和提升业务效果。

节省人力成本方面,音乐曲库的需求之一是将逐行歌词升级为逐字歌词(如卡拉OK效果) ,技术实现是给每个字加上一个时间戳,通过歌词识别技术创新,结合旋律提取做到歌词和旋律边界对齐,节省了大量的人力。另一个场景是曲库安全,网易云音乐基于歌词识别技术开发的敏感歌词返检系统,从而低成本、自动化地将敏感词检测出来。

提升业务效果方面,一个典型场景是哼唱识别,网易云音乐通过旋律匹配+歌词识别的技术方案,有效提升了识别效果,目前已经通过20%流量灰度上线。其次是将歌单识别技术方案用于mlog的视频识曲,结合音频指纹、翻唱识别形成统一的识曲方案,针对网易云音乐用户发布在mlog的视频,该方案可以有效识别视频中所唱的歌曲,并匹配曲库中对应的歌曲,从而实现该视频和曲库里的歌曲关联,进而相互引流。此外还有直播应用,基于该技术的look直播音频分析,可以准确识别出主播所唱的歌曲。

共建模式加速AI落地

MIREX技术成果的成功应用,再次验证了网易内部通行的跨BU共建模式的成功,共创共建使得两个团队能够实现优势互补扬长避短,并且研发方向更加贴近业务需求,加速落地。

以上述mlog视频识曲应用为例,方案中所采用的音频指纹由网易云音乐音视频实验室研发,也是MIREX2020上突破过去6年历史纪录的技术,其特点是速度快、抗噪性强,但无法识别不同版本——而这是网易数帆易智团队研发的歌词识别技术的强项,只要歌词一致就能识别不同版本。

当然,单靠歌词识别也解决不了无歌词、各种外语的场景,这就需要网易云音乐翻唱识别技术的加入,后者能够处理无歌词、外语,但抗噪性差,刚好形成互补。

哼唱识别的案例中,网易云音乐哼唱识别技术能处理用户哼唱甚至吹口哨,然而现实是很多时候用户能唱出歌词,只是跑调了,此时引入歌词识别就能得到更好的效果。

综上,这4种各有所长的识曲技术经过整合形成综合方案,能够大大拓展业务应用场景并取得良好的效果。

共创共建还具有更令人期待的未来,两个团队参赛人员预测,本次大赛中的技术将能够在安全检测、音乐版权检测、音乐内容提供商、传媒行业探索等场景大放异彩。

AI驱动音乐创新,网易数帆X云音乐刷新MIREX世界纪录 网易数帆 网易数帆的更多相关文章

  1. 迈入 8K 时代,AI 驱动超高清 “视” 界到来

    2021 年,超高清迈入 "8K" 时代.超高清视频将带来全新视听体验,但超高清生产在内容生产层面也面临着超高清存量少.生产设备更新换代慢.制作周期成倍增加的困境.在 7 月 10 ...

  2. 微软发布云端基因服务:推动AI驱动的精准医疗

    微软发布云端基因服务:推动AI驱动的精准医疗 2018年03月07日 00:00:00 微软研究院AI头条 阅读数:117    版权声明:本文为博主原创文章,未经博主允许不得转载. https:// ...

  3. AI驱动的超分辨技术落地实践

    近年来,随着深度学习技术的快速发展,基于AI的超分辨技术在图像恢复和图像增强领域呈现出广阔的应用前景,受到了学术界和工业界的关注和重视.但是,在RTC视频领域中,很多AI算法并不能满足实际场景下的应用 ...

  4. NPC AI驱动最基本过程

    NPC AI驱动最基本过程 NPCmgr中比较重要的是加载NPC和一个NPCAI的一个指针 他利用map那个线程的定时到底做了啥呢 void NPCmgr::npcAITimer() { time_t ...

  5. AI本质就是“暴力计算”?看华为云如何应对算力挑战

    随着AI人工智能技术的飞速发展,相关的AI应用场景已经拓宽至各行各业.你可能想象不到的是,现在大家手上的智能手机的运算能力,甚至比美国航空航天局1969年登月计划中最先进计算机还高出几百上千万倍乃至更 ...

  6. 微信小程序云开发-从0打造云音乐全栈小程序

    第1章 首门小程序“云开发”课程,你值得学习本章主要介绍什么是小程序云开发以及学习云开发的重要性,并介绍项目的整体架构,真机演示项目功能,详细介绍整体课程安排.课程适用人群以及需要掌握的前置知识.通过 ...

  7. 明明想在学校中请一些同学一起做一项问卷调查,为了实验的客观性,他先用计算机生成了N个1到1000之间的随机整数(N≤1000),对于其中重复的数字,只保留一个,把其余相同的数去掉,不同的数对应着不同的学生的学号。然后再把这些数从

    明明想在学校中请一些同学一起做一项问卷调查,为了实验的客观性,他先用计算机生成了N个1到1000之间的随机整数(N≤1000),对于其中重复的数字,只保留一个,把其余相同的数去掉,不同的数对应着不同的 ...

  8. IIS:连接数、并发连接数、最大并发工作线程数、应用程序池的队列长度、应用程序池的最大工作进程数详解

    Internet Information Services(IIS,互联网信息服务),是由微软公司提供的基于运行Microsoft Windows的互联网基本服务.最初是Windows NT版本的可选 ...

  9. 回数是指从左向右读和从右向左读都是一样的数,例如 12321 , 909 。请利用 filter() 滤掉非回数

    不管在什么地方,什么时候,学习是快速提升自己的能力的一种体现!!!!!!!!!!! 最近一段时间学习了廖雪峰老师学的Python学习资料,给自己的帮助很大,同时也学到的了很多,今天做了一道练习题,对于 ...

  10. IIS连接数、并发连接数、最大并发工作线程数、应用程序池的队列长度、应用程序池的最大工作进程数详解

    IIS:连接数.并发连接数.最大并发工作线程数.应用程序池的队列长度.应用程序池的最大工作进程数详解 iis性能指标的各种概念:连接数.并发连接数.最大并发工作线程数.应用程序池的队列长度.应用程序池 ...

随机推荐

  1. AIRIOT助力城市管廊工程,智慧物联守护城市生命线

    ​ 随着科技的不断革新,人工智能.大数据.物联网等新一代技术驱动的智慧城市快速发展,众多领域和行业的参随着科技的不断革新,人工智能.大数据.物联网等新一代技术驱动的智慧城市快速发展,众多领域和行业的参 ...

  2. web component基础概念及使用

    概念和使用 作为开发者,我们都知道尽可能多的重用代码是一个好主意.这对于自定义标记结构来说通常不是那么容易 - 想想复杂的HTML(以及相关的样式和脚本),有时您不得不写代码来呈现自定义UI控件,并且 ...

  3. RTOS官方文档学习

    任务与协程 区别 一个程序可以只有任务.只有协程.二者都有,但不可以通过队列/信号量互相传递数据 任务特点 任务之间可以互相独立 每个任务分配自己的堆栈,提高了RAM使用率 操作简单.按优先级抢占式执 ...

  4. OpenCV笔记(7) 轮廓

    1. 查找轮廓 FindContours public static void FindContours(InputOutputArray image, //输入8-bit单通道的图片 out Mat ...

  5. .NET集成DeveloperSharp实现"高效分页"&"无主键分页"

    DeveloperSharp系列近期又被制造业ERP.民航飞行App.建筑BIM.电力掌上营业厅.等多家大型采用,站在巨人的肩膀上你能走的更远. 支持.Net Core2.0及以上,支持.Net Fr ...

  6. webpack externals忽略不打入的包

    例如项目中使用从 CDN 引入 jQuery,而不是把它打包进来使用 import $ from 'jquery' webpack.config.js externals: { jquery: 'jQ ...

  7. jquery浏览器的上卷高度 节点的创建和写入 节点的删除

    // js 的兼容语法         // let scrollT = document.documentElement.scrollTop || document.body.scrollTop; ...

  8. Vue学习:3.V标签综合3

    接上一篇... V标签综合使用:记事本案例 功能: 在实现列表渲染和删除功能的基础上,增加了数据添加以及数据统计,同时要求底部统计和清空区域在事件数目为0时不显示. 思路: 整体架构分为三部分:头部使 ...

  9. work03

    第一题: 1.定义一个包含十个元素的数组.数组元素自己给出 2.遍历打印出数组元素 3.求出数组当中的最小值打印出来 4.求出数组当中的最大值打印出来 5,求数组当中 第二大 值 第二题: 1.定义一 ...

  10. app备案

    最近app要求备案,使用阿里云备案 安卓可以上传apk获取信息,那么ios怎么弄呢 https://zhuanlan.zhihu.com/p/660738854?utm_id=0 查看的时候需要使用m ...