会议更流畅,表情更生动!视频生成编码 VS 国际最新 VVC 标准
阿里云视频云的标准与实现团队与香港城市大学联合开发了基于 AI 生成的人脸视频压缩体系,相比于 VVC 标准,两者质量相当时可以取得 40%-65% 的码率节省,旨在用最前沿的技术,普惠视频通话、视频会议、在线教育等重要应用领域。
作者|王钊 、叶琰、王诗淇
审校| 泰一
https://v.youku.com/v_show/id_XNTE0MTQ1MzgxNg==.html
基于 AI 生成的人脸视频压缩
继线上购物、线上支付后,在线教育、在线办公、在线互娱也流行起来,丰富着我们的日常工作生活,其中一大功臣 —— 视频,是主要的推动力。整个社会的大趋势在走向内容视频化,交互线上化。视频云业务成为云业务中最炙手可热的版块,云端一体创造了更低成本、更低门槛、更强体验、全民共享的技术普惠能力。钉钉也成为一种新的工作学习方式,通过视频会议帮助亿万人解决异地工作的问题,帮助亿万中小学生解决在家上课的问题。
不论是视频会议还是其它视频场景,视频压缩都是最基本也是最核心的能力。国际 ISO/IEC 与 ITU-T 标准组制定的一代代视频压缩标准,如 H.264/AVC (2003),H.265/HEVC (2013) 等,代表了视频压缩能力的每一次重大发展。在 2020 年,最新的国际视频压缩标准 H.266/VVC 正式完成制定,相比于 H.265/HEVC,可以提高一倍压缩率,相比于 H.264/AVC,可以提高四倍压缩率。
AI 技术的兴起也在向广泛的应用领域发起挑战。其中,号称 “万物皆可生成” 的 GAN(对抗生成网络) 则被一些互联网科技巨头公司尝试用于会议视频压缩上。2020 年,Facebook 与 Nvidia 均发布了基于生成的会议视频压缩方法,报告显示可以取得明显优于 H.264/AVC 的压缩效率。
今天,阿里云视频云的标准与实现团队通过和香港城市大学的紧密合作,也推出了基于 AI 生成的会议视频压缩系统,相比于最新的 VVC 标准,在实验室测试场景中,相同的人眼观看质量下可以节省 40%-65% 的码率。VVC 已经代表着业界最先进的视频压缩能力,而我们系统相比于 VVC 所显示的技术优势则意味着我们有望可以在不久的将来大幅度拉开钉钉视频会议和竞品系统之间的技术差距,用一半的带宽开相同质量的钉钉视频会议!
传统客观质量评价指标如 PSNR、SSIM 等依赖于像素级的失真计算,并不适用于生成任务的失真评价。DISTS 指标( PAMI2020[1] )和 LPISP 指标( CVPR2018[2] ) 是两个近年来质量评估领域的顶级文章,它们通过深度特征来度量解码图像与原始图像的相似度,可以更好地针对基于 GAN 的视频压缩场景进行质量评价,因此它们与人眼主观质量评测的相关度远高于 PSNR 和 SSIM 这些传统指标。
当我们视频云的基于 AI 生成的会议视频压缩系统与 VVC 参考软件使用相同的码率时,视频云生成压缩系统的解码视频相比于 VVC 可以获得 40%-65% 的质量提升。也就是说,在相同的带宽下,用户可以享受到更加清晰、生动的画质。
在 DISTS 客观指标相当时,视频云的生成压缩系统与 VVC 对比如顶部视频所示。通过观察对比视频效果可以看到,视频云的基于 AI 生成的压缩系统与 VVC 相比有大幅的带宽成本降低(只用 1/3 左右的带宽),同时在视频清晰度和主观质量上可以取得明显优势。
由于 VVC 是基于传统视频压缩框架,因此在低码率下容易出现视频模糊不清以及块效应等主观质量问题,而视频云的生成压缩系统则可以在更低码率下依然很好地保持面部细节和五官清晰度。在码率 / 带宽相当时,视频云的生成压缩系统与 VVC 编码对比视频如下,相比于 VVC 画面清晰度和主观质量的优势更是明显,面部表情栩栩如生。
https://v.youku.com/v_show/id_XNTE0MTQ1NjIzMg==.html
压缩系统关键技术
我们提出的基于 AI 生成的视频云会议视频压缩系统的编码端包含两部分:压缩源图像的 VVC 编码器和用于提取其他图像帧的脸部运动信息的脸部探测器。首先,通过对源图像在 VVC 编码器中在一定的量化步长下进行压缩,并传输相应的比特流到解码端。其次,在脸部探测器的帮助下我们可以进一步提取后续其他图像帧的关键点和雅可比矩阵,用于表示这些图像帧的脸部运动信息。这些脸部关键点和雅可比矩阵进行帧间残差预测和算术编码,实现压缩并传输到解码端。

解码端首先解码出源图像,然后解码出待生成帧对应的关键点与雅可比矩阵。解码端的生成模型会以源图像、关键点和雅可比矩阵作为输入,对关键点对应的高维空间进行矩阵变换,并作用于源图像提出的高维特征图上,从而输出最终的生成图像。下图给出了一个可视化示例。

与 VVC 编码实验对比

我们对 30 个人脸视频 (上图) 进行了 VVC 编码与基于 AI 生成的视频压缩对比。VVC 编码器在低延迟模式 (Low-delay B) 下使用量化参数 (QP) 32, 37, 42, 47。视频云的基于 AI 的生成压缩方法同样测试了 4 个不同的码率点。测试集上的平均编码质量与码率如下表所示。

表 1 视频云的生成压缩系统与 VVC 的压缩性能对比,DISTS 与 LPIPS 数值越低表示质量越高
根据实验结果,可以看到在相当的解码视频质量下,视频云的生成压缩方法相比于 VVC 可以带来 40%-65% 的平均码率节省,同时这个压缩性能的优势在低码率场景下更加明显。把质量评分与码率做成相应的失真 - 码率曲线,对比如下:


图 4 视频云的生成压缩方案与 VVC 的压缩效率对比图
在码率相当时,视频云的生成压缩系统与 VVC 解码视频的主观对比图示例如下:

可见在低码率下 VVC 容易出现画面模糊的情况,而视频云的生成压缩系统的清晰度更高。
在解码质量相当时,视频云的生成压缩系统与 VVC 解码视频的码率对比如下:

可以看到,在压缩质量相当时,视频云的生成压缩系统相比于国际最新 VVC 标准可将压缩率提高 40%-65%。这不仅极大降低了相关视频应用的带宽成本,还可以让用户享受到更生动、更流畅的视频体验!
参考文献:
[1] Ding, Keyan, et al. "Image Quality Assessment: Unifying Structure and Texture Similarity." IEEE transactions on pattern analysis and machine intelligence.
[2] Zhang, Richard, et al. "The unreasonable effectiveness of deep features as a perceptual metric." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
会议更流畅,表情更生动!视频生成编码 VS 国际最新 VVC 标准的更多相关文章
- 实时 + 高清 + 超压缩,阿里云视频云发布业内首款 VVC 编码器 Ali266
基于新一代国际视频编解码标准 H.266/VVC,阿里云视频云近日发布了实时高清编码器 Ali266,有力推动 H.266/VVC 标准应用的落地,真正开启 H.266/VVC 的商用之路,并强力赋能 ...
- Microsoft Hyperlapse——让第一人称视频更快更流畅
Hyperlapse--让第一人称视频更快更流畅" title="Microsoft Hyperlapse--让第一人称视频更快更流畅"> 职业摄影师Nick Di ...
- Microsoft Tech Summit 2018 课程简述:利用 Windows 新特性开发出更好的手绘视频应用
概述 Microsoft Tech Summit 2018 微软技术暨生态大会将于10月24日至27日在上海世博中心举行,这也会是国内举办的最后一届 Tech Summit,2019 年开始会以 Mi ...
- 谷歌推出全新Android开发语言Sky:让App更流畅
土豆网同步更新:http://www.tudou.com/plcover/VHNh6ZopQ4E/ 使用HTML 创建Mac OS App 视频教程. 官方QQ群: (1)App实践出真知 434 ...
- window.requestAnimationFrame()的使用,处理更流畅的动画效果
https://blog.csdn.net/w2765006513/article/details/53843169 window.requestAnimationFrame()的使用 2016年12 ...
- Gradle更小、更快构建APP的奇淫技巧
本文已获得原作者授权同意,翻译以及转载原文链接:Build your Android app Faster and Smaller than ever作者:Jirawatee译文链接:Gradle更小 ...
- javaCV开发详解之技术杂烩:javaCV能帮我们做什么?能实现什么功能?ffmpeg和openCV能实现功能,javaCV如何做到更快、更简单的实现相应的功能?等等一堆实用话题
前言: 该篇文章旨在帮助刚接触javaCV的盆友系统的认识音视频.javaCV.图像处理相关的体系知识和一些实用的知识. 序: javaCV早期因为内置了openCV库,所以常用来做图像识别应用,现在 ...
- Android 音视频深入 九 FFmpeg解码视频生成yuv文件(附源码下载)
项目地址,求star https://github.com/979451341/Audio-and-video-learning-materials/tree/master/FFmpeg(MP4%E8 ...
- 专访|HPE测试中心总监徐盛:测试新思维-DevOps,持续测试,更敏捷,更快速
2016年7月22日,「HPE&msup软件技术开放日」将在上海浦东新区,张江高科技园区纳贤路799号科荣大厦小楼2楼举办,msup携手HPE揭秘全球测试中心背后的12条技术实践. 徐盛:HP ...
随机推荐
- 为什么ElasticSearch比MySQL更适合全文索引
熟悉 MySQL 的同学一定都知道,MySQL 对于复杂条件查询的支持并不好.MySQL 最多使用一个条件涉及的索引来过滤,然后剩余的条件只能在遍历行过程中进行内存过滤,对这个过程不了解的同学可以先行 ...
- ArrayList的简单实现
class AList<E>{ //属性:数组和实际元素个数 private Object[] data; private int size; //构造函数:有参.无参 public AL ...
- 使用 Tye 辅助开发 k8s 应用竟如此简单(四)
续上篇,这篇我们来进一步探索 Tye 更多的使用方法.本篇我们来了解一下如何在 Tye 中如何进行日志的统一管理. Newbe.Claptrap 是一个用于轻松应对并发问题的分布式开发框架.如果您是首 ...
- Vue的学习总结之---Vue项目 前后端分离模式解决开发环境的跨域问题
原文:https://blog.csdn.net/localhost_1314/article/details/83623526 在前后端分离的web开发中,我们与后台联调时,会遇到跨域的问题. 比如 ...
- Vue学习笔记-Vue.js-2.X 学习(七)===>脚手架Vue-CLI(路由Router)
脚手架Vue-CLI(路由Router) 一 按装(通过新创建脚手架按装),如果在原来的脚手架上按装直接进图型化界面vue ui的插件按装. 二 使用(上面按装下面步骤自动会生成) 第一步:导入路由对 ...
- BurpSuite生成快捷方式
Win下 在win系统写个脚本,能方便快捷的打开burp. burp.bat @echo oFF if "%1" neq "1" ( >"%te ...
- “Mac应用”已损坏,打不开解决办法
问题说明: 通常在非 Mac App Store下载的软件都会提示"xxx已损坏,打不开.您应将它移到废纸篓"或者"打不开 xxx,因为它来自身份不明的开发者" ...
- C++类的友元机制说明
下面给出C++类的友元机制说明(对类private.protected成员访问),需要注意的是,友元机制尽量不用或者少用,虽然它会提供某种程度的效率,但会带来数据安全性的问题. 类的友元 友元是C++ ...
- Java实现贪吃蛇
游戏界面基本布局 贪吃蛇是基于JFrame的一款小游戏.它主要有两部分组成,一个是显示区域,一个是按钮区域.这两个区域都用JPanel来实现. 首先需要创建一个基于JFrame的类,例如创建一个MyF ...
- 剑指 Offer 60. n个骰子的点数 + 动态规划 + 空间优化
剑指 Offer 60. n个骰子的点数 Offer_60 题目详情 题解分析 package com.walegarrett.offer; /** * @Author WaleGarrett * @ ...