声音,为数字人注入灵魂。

2023云栖大会上,阿里云视频云接受了CCTV-2财经频道的采访,分享并演示了如何利用云端智能剪辑,一站式完成数字人渲染及视频精编二创。

正如视频开头所呈现的AI重现演员“原声”,近年来,随着AI技术的发展,越来越多的AI之声也被运用于虚拟数字人、语音社交、咨询播报等场景。

视频:生成式大模型进军视频领域 “数字人”应用场景拓展

(视频来源:CCTV-2 财经频道)

#01 AI之声,如何重现生动

僵硬感、机器感、电音、语流语调不自然......这是过去语音合成技术主要面临的效果难题。

如何实现音色逼真、韵律自然的AI复刻效果?

首先,阿里云视频云技术团队会对用户语料数据的音频进行降噪、修复等预(前)处理,降低语料质量要求,提升语料清晰度和音质;

同时,基于视频云多场景、多来源、多语言的基础物料训练模型,可以模拟对话的自然效果及方言能力,并支持自定义调节情感和色彩;

当音频合成后,再对其进行超分修复等后处理,从而全流程、多维度提升推演合成音频的音质及播报自然度

这也意味着减少了真实声音的录音条件限制,在极少量的语料数据下,最短甚至20句话的简单录制,也能完成声音克隆。

在此基础之上,智能媒体服务人声克隆还充分考虑了自主灵活定制的便捷性、安全性、高效性

在便捷性上,基于视频云多年算法积累对原声质量提升预处理,用户收集日常播报语料即可形成训练素材,以保证训练语料的情绪场景贴合度和声音自然度。

在内容安全性上,用户可通过按系统设定的文案录制从流程上限制输入的内容,或自由发挥再叠加定向录制、声纹比对的方式,规避侵权风险

在当完成素材录制后,即会高效生成捕捉了重点声纹特征的克隆人声Code,可快速投入语音合成应用。

#02 高保真还原音色,满足各类场景

当前人声克隆定制服务,分为高级定制版、轻量定制版和基础版三档定制方案。

l 基础版:

在线可用,系统自动分配20句文案简单录制,覆盖故事、交互、导航三大细分场景,便捷快速复刻人声。通过用户上传的录音内容,30min即可快速、低成本捕捉关键声纹特征克隆人声,达到用户级娱乐效果。基础版适用于快速捕捉典型声纹特征的互娱应用。

基础版-20句语料录制界面及步骤

l 大众版(轻量定制):

自助提交丰富、清晰、高质量的语音物料,融合音质检测、音频降噪和数字克隆的多维度算法,基于15-30min有效音频,即可高保真还原音色。同时还可随着使用需求不同,指定音色情绪,满足不同应用场景的声音灵活适配。大众版(轻量定制)适用于大众互联网级高清人声应用。(NEW 推荐)

原始训练声音(截取)

声音克隆结果

(人声克隆大众版效果)

l 高级定制版:

阿里云提供专业的录制导师、训练算法和结果调优的全流程服务,针对单个人声进行训练算法定制,预期可达到广电传媒级的拟真效果,实现个性化高标准人声还原。高级版适用于广电传媒级超高清人声应用。

#03 产品力与生动力

当完成人声克隆定之后,不仅可以通过文字转语音TTS,智能生成配音。也可通过文字驱动的方式,完成数字人视频合成。

阿里云「云端智能剪辑」提供专业的音视频剪辑(多层级元素、专业字幕、转场过渡、特效滤镜)能力及完善的视频模版工具。

浏览器剪辑界面

通过浏览器非线性编辑器或AE制作模版库,将复刻后的声音结合数字人自动化渲染,可实现数字人名片、数字人慕课等标准模版组合方案,满足短视频、教学视频、广告宣传等各类数字人视频制作的要求。

#04 打造一个“声动”数字人

“限时福利”倒计时!在活动有效期内发起定制数字人和人声克隆大众版(轻量定制)服务,即可享受终身免费续期的特权!

活动有效期

限时福利活动有效期为2023年12月31日24点前请在规定期内完成数字人定制任务提交操作。

适用平台

当前限时福利仅适用于通过阿里云智能媒体服务发起数字人定制的用户。

活动开始前已定制的数字人是否适用当前活动?

适用。只要在活动结束时间之前发起定制任务,均满足活动条件,自动享受福利特权。

福利页详情链接:「限时福利」数字人定制终身免费续期

欢迎加入官方答疑「钉钉群」咨询交流:48335001108

音色逼真、韵律自然的AI人声克隆限时福利!的更多相关文章

  1. 【贪心科技】贪心科技内容合伙人关于AI公司及创业的演讲笔记

    贪心科技内容合伙人关于AI公司及创业的演讲笔记 视频 目录 一.投资角度对 AI 的两个基本认知 二.简单分析 AI 公司的两个纬度四个层面 三.AI 垂直行业应用的三点中美对比 四.给创业者的四个建 ...

  2. 如何复制一个java对象(浅克隆与深度克隆)

    在项目中,有时候有一些比较重要的对象经常被当作参数传来传去,和C语言的值传递不同,java语言的传递都是引用传递,在任何一个地方修改了这个对象的值,就会导致这个对象在内存中的值被彻底改变.但是很多时候 ...

  3. 神奇的AI:将静态图片转为3D动图

    近日我们从外媒获得消息,位于莫斯科的三星AI中心和Skolkovo科学技术研究所的研究人员发表了一篇新论文,详细介绍了从单个静止人像照片生成3D动画人像的创建.与此前能够生成照片般逼真肖像的人工智能A ...

  4. 如何使用正则做文本数据的清洗(附免费AI视频福利)

    手工打造文本数据清洗工具 作者 白宁超 2019年4月30日09:43:59 前言:数据清理指删除.更正错误.不完整.格式有误或多余的数据.数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据 ...

  5. anyRTC 重磅推出在线实时 K 歌解决方案

    在线音乐领域一直是各大资本巨头投资的热点,从抢占版权到现在的"云上之争", 主流平台的战火从版权资源转向创新领域扩延.而如今,在线K歌正在成为抢占"云音乐"市场 ...

  6. 声网推出首个完整实时合唱解决方案 即将上线“咪哒”全国线下K歌房

    4月20日,声网Agora宣布对实时合唱技术方案全面升级,帮助国内知名迷你KTV品牌"咪哒"实现国内首个支持多终端.多人合唱.高音质的完整实时合唱解决方案的落地,结束了国内K歌行业 ...

  7. AIGC时代:未来已来

    摘要:人工智能的快速发展使得我们进入了AIGC时代.AIGC时代的到来,将会带来巨大的机遇和挑战. 本文分享自华为云社区<GPT-4发布,AIGC时代的多模态还能走多远?系列之一: AIGC时代 ...

  8. android用讯飞实现TTS语音合成 实现中文版

    Android系统从1.6版本开始就支持TTS(Text-To-Speech),即语音合成.但是android系统默认的TTS引擎:Pic TTS不支持中文.所以我们得安装自己的TTS引擎和语音包. ...

  9. 【证明】【一题多解】布尔不等式(union bound)的证明

    布尔不等式(Boole's inequality)也叫(union bound),即并集的上界,描述的是至少一个事件发生的概率(P(⋃iAi)" role="presentatio ...

  10. 你的GAN训练得如何--GAN 的召回率(多样性)和精确率(图像质量)方法评估

    生成对抗网络(GAN)是当今最流行的图像生成方法之一,但评估和比较 GAN 产生的图像却极具挑战性.之前许多针对 GAN 合成图像的研究都只用了主观视觉评估,一些定量标准直到最近才开始出现.本文认为现 ...

随机推荐

  1. 开源元数据管理平台Datahub最新版本0.10.5——安装部署手册(附离线安装包)

    大家好,我是独孤风. 开源元数据管理平台Datahub近期得到了飞速的发展.已经更新到了0.10.5的版本,来咨询我的小伙伴也越来越多,特别是安装过程有很多问题.本文经过和群里大伙伴的共同讨论,总结出 ...

  2. (转)IBM Appscan9.0.3安全扫描简单安装、使用以及高危漏洞修复

    最近手上负责一个的项目要进行等保评测.请的第三方公司采用IBM Security AppScan Standard对项目进行安全测试.测试报告高危漏洞主要包含sql注入.sql盲注.跨站点脚本编制如下 ...

  3. Auto-GPT免费尝鲜之初体验-使用攻略和总结

    写在前面的废话 ChatGPT 的交互模式,是和一个 "人" 对话聊天. 如果你想了解更多ChatGPT和AI绘画的相关知识,请参考:ChatGPT注册和变现思路,AI绘画教程汇总 ...

  4. RK3568开发笔记(六):开发板烧写ubuntu固件(支持mipi屏镜像+支持hdmi屏镜像)

    前言   编译了uboot,kernel,buildroot后,可以单独输入固件,也可以整体打包成rootfs进行一次性输入,rootfs直接更新升级这个方式目前也是常用的.   烧写器软件:RKDe ...

  5. 程序员:你如何写可重复执行的SQL语句?

    上图的意思: 百战百胜,屡试不爽. 故事 程序员小张: 刚毕业,参加工作1年左右,日常工作是CRUD 架构师老李: 多个大型项目经验,精通各种开发架构屠龙宝术: 小张注意到,在实际的项目开发场景中,很 ...

  6. k8s 入门到实战--部署应用到 k8s

    背景 最近这这段时间更新了一些 k8s 相关的博客和视频,也收到了一些反馈:大概分为这几类: 公司已经经历过服务化改造了,但还未接触过云原生. 公司部分应用进行了云原生改造,但大部分工作是由基础架构和 ...

  7. KRPANO太阳光插件

    KRPano太阳光插件可以在全景项目中添加太阳光特效,如下图所示: 同时,该插件支持可视化编辑 使用说明 1.下载插件,把插件放入skin文件夹里面 2.在tour.xml文件中,添加下面的插件引用 ...

  8. Harry Potter RPG_1

    RPG--Harry Potter 博主最近迷上了<Harry Potter> So 我制作了一款RPG对话模拟游戏, 目前主线以进行到了分院以后: 有兴趣的小伙伴可以看看,能点个关注就更 ...

  9. 【matplotlib 实战】--折线图

    折线图是一种用于可视化数据变化趋势的图表,它可以用于表示任何数值随着时间或类别的变化. 折线图由折线段和折线交点组成,折线段表示数值随时间或类别的变化趋势,折线交点表示数据的转折点. 折线图的方向表示 ...

  10. c++ 常用的 STL

    c++ 中常用的 STL vector //vector 变长数组 倍增的思想(倍增:系统为每一个程序分配空间的时候,所需要的时间和空间大小无关,与请求次数相关)尽量减少请求的次数 /* 返回元素的个 ...