声音,为数字人注入灵魂。

2023云栖大会上,阿里云视频云接受了CCTV-2财经频道的采访,分享并演示了如何利用云端智能剪辑,一站式完成数字人渲染及视频精编二创。

正如视频开头所呈现的AI重现演员“原声”,近年来,随着AI技术的发展,越来越多的AI之声也被运用于虚拟数字人、语音社交、咨询播报等场景。

视频:生成式大模型进军视频领域 “数字人”应用场景拓展

(视频来源:CCTV-2 财经频道)

#01 AI之声,如何重现生动

僵硬感、机器感、电音、语流语调不自然......这是过去语音合成技术主要面临的效果难题。

如何实现音色逼真、韵律自然的AI复刻效果?

首先,阿里云视频云技术团队会对用户语料数据的音频进行降噪、修复等预(前)处理,降低语料质量要求,提升语料清晰度和音质;

同时,基于视频云多场景、多来源、多语言的基础物料训练模型,可以模拟对话的自然效果及方言能力,并支持自定义调节情感和色彩;

当音频合成后,再对其进行超分修复等后处理,从而全流程、多维度提升推演合成音频的音质及播报自然度

这也意味着减少了真实声音的录音条件限制,在极少量的语料数据下,最短甚至20句话的简单录制,也能完成声音克隆。

在此基础之上,智能媒体服务人声克隆还充分考虑了自主灵活定制的便捷性、安全性、高效性

在便捷性上,基于视频云多年算法积累对原声质量提升预处理,用户收集日常播报语料即可形成训练素材,以保证训练语料的情绪场景贴合度和声音自然度。

在内容安全性上,用户可通过按系统设定的文案录制从流程上限制输入的内容,或自由发挥再叠加定向录制、声纹比对的方式,规避侵权风险

在当完成素材录制后,即会高效生成捕捉了重点声纹特征的克隆人声Code,可快速投入语音合成应用。

#02 高保真还原音色,满足各类场景

当前人声克隆定制服务,分为高级定制版、轻量定制版和基础版三档定制方案。

l 基础版:

在线可用,系统自动分配20句文案简单录制,覆盖故事、交互、导航三大细分场景,便捷快速复刻人声。通过用户上传的录音内容,30min即可快速、低成本捕捉关键声纹特征克隆人声,达到用户级娱乐效果。基础版适用于快速捕捉典型声纹特征的互娱应用。

基础版-20句语料录制界面及步骤

l 大众版(轻量定制):

自助提交丰富、清晰、高质量的语音物料,融合音质检测、音频降噪和数字克隆的多维度算法,基于15-30min有效音频,即可高保真还原音色。同时还可随着使用需求不同,指定音色情绪,满足不同应用场景的声音灵活适配。大众版(轻量定制)适用于大众互联网级高清人声应用。(NEW 推荐)

原始训练声音(截取)

声音克隆结果

(人声克隆大众版效果)

l 高级定制版:

阿里云提供专业的录制导师、训练算法和结果调优的全流程服务,针对单个人声进行训练算法定制,预期可达到广电传媒级的拟真效果,实现个性化高标准人声还原。高级版适用于广电传媒级超高清人声应用。

#03 产品力与生动力

当完成人声克隆定之后,不仅可以通过文字转语音TTS,智能生成配音。也可通过文字驱动的方式,完成数字人视频合成。

阿里云「云端智能剪辑」提供专业的音视频剪辑(多层级元素、专业字幕、转场过渡、特效滤镜)能力及完善的视频模版工具。

浏览器剪辑界面

通过浏览器非线性编辑器或AE制作模版库,将复刻后的声音结合数字人自动化渲染,可实现数字人名片、数字人慕课等标准模版组合方案,满足短视频、教学视频、广告宣传等各类数字人视频制作的要求。

#04 打造一个“声动”数字人

“限时福利”倒计时!在活动有效期内发起定制数字人和人声克隆大众版(轻量定制)服务,即可享受终身免费续期的特权!

活动有效期

限时福利活动有效期为2023年12月31日24点前请在规定期内完成数字人定制任务提交操作。

适用平台

当前限时福利仅适用于通过阿里云智能媒体服务发起数字人定制的用户。

活动开始前已定制的数字人是否适用当前活动?

适用。只要在活动结束时间之前发起定制任务,均满足活动条件,自动享受福利特权。

福利页详情链接:「限时福利」数字人定制终身免费续期

欢迎加入官方答疑「钉钉群」咨询交流:48335001108

音色逼真、韵律自然的AI人声克隆限时福利!的更多相关文章

  1. 【贪心科技】贪心科技内容合伙人关于AI公司及创业的演讲笔记

    贪心科技内容合伙人关于AI公司及创业的演讲笔记 视频 目录 一.投资角度对 AI 的两个基本认知 二.简单分析 AI 公司的两个纬度四个层面 三.AI 垂直行业应用的三点中美对比 四.给创业者的四个建 ...

  2. 如何复制一个java对象(浅克隆与深度克隆)

    在项目中,有时候有一些比较重要的对象经常被当作参数传来传去,和C语言的值传递不同,java语言的传递都是引用传递,在任何一个地方修改了这个对象的值,就会导致这个对象在内存中的值被彻底改变.但是很多时候 ...

  3. 神奇的AI:将静态图片转为3D动图

    近日我们从外媒获得消息,位于莫斯科的三星AI中心和Skolkovo科学技术研究所的研究人员发表了一篇新论文,详细介绍了从单个静止人像照片生成3D动画人像的创建.与此前能够生成照片般逼真肖像的人工智能A ...

  4. 如何使用正则做文本数据的清洗(附免费AI视频福利)

    手工打造文本数据清洗工具 作者 白宁超 2019年4月30日09:43:59 前言:数据清理指删除.更正错误.不完整.格式有误或多余的数据.数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据 ...

  5. anyRTC 重磅推出在线实时 K 歌解决方案

    在线音乐领域一直是各大资本巨头投资的热点,从抢占版权到现在的"云上之争", 主流平台的战火从版权资源转向创新领域扩延.而如今,在线K歌正在成为抢占"云音乐"市场 ...

  6. 声网推出首个完整实时合唱解决方案 即将上线“咪哒”全国线下K歌房

    4月20日,声网Agora宣布对实时合唱技术方案全面升级,帮助国内知名迷你KTV品牌"咪哒"实现国内首个支持多终端.多人合唱.高音质的完整实时合唱解决方案的落地,结束了国内K歌行业 ...

  7. AIGC时代:未来已来

    摘要:人工智能的快速发展使得我们进入了AIGC时代.AIGC时代的到来,将会带来巨大的机遇和挑战. 本文分享自华为云社区<GPT-4发布,AIGC时代的多模态还能走多远?系列之一: AIGC时代 ...

  8. android用讯飞实现TTS语音合成 实现中文版

    Android系统从1.6版本开始就支持TTS(Text-To-Speech),即语音合成.但是android系统默认的TTS引擎:Pic TTS不支持中文.所以我们得安装自己的TTS引擎和语音包. ...

  9. 【证明】【一题多解】布尔不等式(union bound)的证明

    布尔不等式(Boole's inequality)也叫(union bound),即并集的上界,描述的是至少一个事件发生的概率(P(⋃iAi)" role="presentatio ...

  10. 你的GAN训练得如何--GAN 的召回率(多样性)和精确率(图像质量)方法评估

    生成对抗网络(GAN)是当今最流行的图像生成方法之一,但评估和比较 GAN 产生的图像却极具挑战性.之前许多针对 GAN 合成图像的研究都只用了主观视觉评估,一些定量标准直到最近才开始出现.本文认为现 ...

随机推荐

  1. react中使用动画 react-transition-group

    在React中通过react-transition-group使用过渡.动画,首先要有CSS3中的过渡和动画的相关知识储备,可以参考 过渡和2D变换.动画和3d变换. 我们自己通过css设置过渡.动画 ...

  2. 【Unity3D】高斯模糊特效

    1 高斯模糊原理 ​ 边缘检测特效中使用了卷积运算进行了边缘检测,本文实现的高斯模糊特效同样使用了卷积运算,关于卷积核和卷积运算的概念,读者可以参考边缘检测特效. ​ 本文完整资源见→Unity3D高 ...

  3. C#应用处理传入参数 - 开源研究系列文章

    今天介绍关于C#的程序传入参数的处理例子. 程序的传入参数应用比较普遍,特别是一个随操作系统启动的程序,需要设置程序启动的时候不显示主窗体,而是在后台运行,于是就有了传入参数问题,比如传入/h或者/m ...

  4. Python 潮流周刊#15:如何分析 FastAPI 异步请求的性能?

    你好,我是猫哥.这里每周分享优质的 Python.AI 及通用技术内容,大部分为英文.标题取自其中一则分享,不代表全部内容都是该主题,特此声明. 本周刊精心筛选国内外的 250+ 信息源,为你挑选最值 ...

  5. Programming abstractions in C阅读笔记: p114-p117

    <Programming Abstractions in C>学习第48天,p114-p117,​总结如下: 一.技术总结 主要通过random number介绍了随机数的相关用法,int ...

  6. Redis专题-秒杀

    Redis专题-并发/秒杀 开局一张图,内容全靠"编". 昨天晚上在群友里看到有人在讨论库存并发的问题,看到这里我就决定写一篇关于redis秒杀的文章. 1.理论部分 我们看看一般 ...

  7. API接口的重要性

    API接口的重要性在现代软件开发中无可替代.以下是API接口的几个重要方面: 1. 实现系统集成:API接口允许不同应用程序之间实现数据共享和交流.通过API接口,不同的软件系统可以相互连接和协作,实 ...

  8. CodeForces 1367F1 Flying Sort (Easy Version)

    题意 给一个长度为\(n\)的数组,数组中的数互不相同,你可以有两种操作 将某一个数放置在数组开头 将某一个数放置在数组结尾 问最小操作多少次可以得到一个递增数列 分析 因为数组中的数很大,我们可以将 ...

  9. Maven关联本地已有仓库的方法

    1. 将本地仓库目录localwarehouse进行压缩为localwarehouse.rar. 2. 将localwarehouse.rar解压到D:\maven文件夹中,然后在setting.xm ...

  10. MySQL的字段数量以及长度限制

    一.InnoDB行格式 行格式 紧凑的存储特性 增强的可变长度列存储 大型索引键前缀支持 压缩支持 支持的表空间类型 REDUNDANT N N N N system, file-per-table, ...