凭借在人脸生成领域的扎实积累和前沿创新，阿里云视频云与香港科技大学合作的最新研究成果《基于生成对抗网络的深度感知人脸重演算法》（Depth-Aware Generative Adversarial Network for Talking Head Video Generation）被 CVPR2022 接收。本文为最新研究成果解读。

论文题目：《Depth-Aware Generative Adversarial Network for Talking Head Video Generation》

arxiv链接：https://arxiv.org/abs/2203.06605

人脸重演算法将使视频编解码有新突破？

近年来随着视频直播的大火，越来越多的人开始关注视频云领域。而视频传输的低延迟，高画质，一直是难以平衡的两个点。当前直播延时最低可以降到 400ms 以内，但是在视频会议等各场景的需求不断增加的情况下，比如远程 PPT 演示，我们对画质和延迟的平衡有着更高的要求。而突破直播延迟的关键是编解码技术的提升，人脸重演算法与编解码技术的结合，在视频会议场景的应用中将使带宽需求大幅减少，而获得更具身临其境的体验，这是迈向超低延时优画质视频会议非常重要的一步。

人脸重演（face reenactment/talking head）算法是指，利用一段视频来驱动一张图像，使图像中的人脸能够模仿视频中人物的面部姿态、表情和动作，实现静态图像视频化的效果。

图 1

人脸重演发展现状

目前的人脸重演方法严重依赖于从输入图像中学习到的 2D 表征。然而，我们认为稠密的 3D 几何信息（例如：像素级深度图）对于人脸重演非常重要，因为它可以帮助我们生成更准确的 3D 人脸结构，并将噪声和复杂背景与人脸区分开来。不过，稠密的视频 3D 标注代价高昂。

研究动机&创新点

在本文中，我们介绍了一种自监督的 3D 几何学习方法，可以在不需要任何 3D 标注的情况下，从视频中估计出头部深度（depth maps）。我们进一步利用深度图来辅助检测人脸关键点，从而捕捉头部的运动。此外，深度图还用于学习一种 3D 感知的跨模态注意力（3D-aware cross-model attention），以指导运动场（motion field）的学习和特征的形变。

图 2

图 2 展示了本文提出的 DA-GAN 的 pipeline，它主要包含三部分：

（1）深度估计网络，我们通过自监督的方式估计稠密的人脸深度图；

（2）关键点检测网络，我们将由深度图表征的 3D 几何特征与由 RGB 图的外观特征进行拼接，以预测更为准确的人脸关键点；

（3）人脸合成网络，它又可以分为一个特征形变模块和一个跨模态注意力模块。

特征形变模块将输入的稀疏关键点转化为稀疏运动场（sparse motion field），随后学习得到稠密运动场（dense motion field），并用其对图像特征进行扭曲（warping）。

跨模态注意力模块利用深度特征学习得到注意力图（attention maps），以捕捉更多动作细节并修正人脸结构。两个模块的结构可见图 3 和图 4。

图 3

图 4

实验结果

定量实验

我们在 VoxCeleb1[1] 和 CelebV[2] 数据集上进行了实验。

我们使用 structured similarity (SSIM) 和 peak signal-to-noise ratio (PSNR) 来评估结果帧和驱动帧的相似度；

使用 average keypoint distance (AKD) 和 average euclidean distance (AED)[3] 来评估关键点的准确性，使用 CSIM[4] 来评估身份保持；

使用 PRMSE 来评估头姿保持，使用 AUCON 来评估姿态保持。

定量对比

表 1

表 2

表 3

表 1 和表 2 是 DA-GAN 与主流人脸重演方法在 VoxCeleb1 数据集上的定量对比，表 3 是 DA-GAN 与主流人脸重演方法在 CelebV 数据集上的定量对比。

定性对比

图 5 是 GA-GAN 与主流人脸重演方法的定性对比。实验表明，本文提出的 DA-GAN 在各项指标以及生成效果上上均优于其它算法。

图 5

消融实验（Ablation study）

图 6 是 ablation study 的结果，可以看到，自监督深度估计和跨模态注意力模块都显著提升了合成人脸的细节和微表情。

图 6

研究总结

通过以上的的结果，可以看出人脸重演算法可以实现更为精细的人脸细节和微表情合成。在视频会议场景中，用 talking head 的方法，在通信过程中可以只传输关键点坐标，而不需要传输每帧图像，在接收端可以通过输入关键点恢复每一帧的图像，大幅降低带宽需求，从而获得画质优良的低延时视频会议体验。

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实践技术文章，在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

CVPR2022 前沿研究成果解读：基于生成对抗网络的深度感知人脸重演算法的更多相关文章

知物由学 | AI网络安全实战：生成对抗网络
本文由网易云发布. “知物由学”是网易云易盾打造的一个品牌栏目,词语出自汉·王充<论衡·实知>.人,能力有高下之分,学习才知道事物的道理,而后才有智慧,不去求问就不会知道.“知物由学” ...
【超分辨率】—(ESRGAN)增强型超分辨率生成对抗网络-解读与实现
一.文献解读我们知道GAN 在图像修复时更容易得到符合视觉上效果更好的图像,今天要介绍的这篇文章——ESRGAN: Enhanced Super-Resolution Generative Adve ...
[ZZ] Valse 2017 | 生成对抗网络（GAN）研究年度进展评述
Valse 2017 | 生成对抗网络(GAN)研究年度进展评述 https://www.leiphone.com/news/201704/fcG0rTSZWqgI31eY.html?viewType ...
AI佳作解读系列(六) －生成对抗网络（GAN）综述精华
注:本文来自机器之心的PaperWeekly系列:万字综述之生成对抗网络(GAN),如有侵权,请联系删除,谢谢! 前阵子学习 GAN 的过程发现现在的 GAN 综述文章大都是 2016 年 Ian G ...
基于Jittor框架实现LSGAN图像生成对抗网络
基于Jittor框架实现LSGAN图像生成对抗网络生成对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的 ...
解读生成对抗网络（GAN）之U-GAN-IT
Unsupervised Generative Attentionnal Networks with Adapter Layer-In(U-GAN-IT) 从字面我们可以理解为无监督生成对抗网络和适配 ...
不到 200 行代码，教你如何用 Keras 搭建生成对抗网络（GAN）【转】
本文转载自:https://www.leiphone.com/news/201703/Y5vnDSV9uIJIQzQm.html 生成对抗网络(Generative Adversarial Netwo ...
科普 | 生成对抗网络(GAN)的发展史
来源:https://en.wikipedia.org/wiki/Edmond_de_Belamy 五年前,Generative Adversarial Networks(GANs)在深度学习领域掀起 ...
GAN实战笔记——第六章渐进式增长生成对抗网络（PGGAN）
渐进式增长生成对抗网络(PGGAN) 使用 TensorFlow和 TensorFlow Hub( TFHUB)构建渐进式增长生成对抗网络( Progressive GAN, PGGAN或 PROGA ...
渐进结构—条件生成对抗网络（PSGAN）
Full-body High-resolution Anime Generation with Progressive Structure-conditional Generative Adversa ...

随机推荐

EF Core预编译模型Compiled Model
前言最近还在和 npgsql 与 EF Core 斗争,由于 EF Core 暂时还不支持 AOT,因此在 AOT 应用程序中使用 EF Core 时,会提示问题: 听这个意思,似乎使用 Compi ...
CD74HC4067高速CMOS16通道模拟多路复用器实践
咱们在玩arduino或stm32.esp8266时,有时会遇到板子模拟口不够用的情况,这个时候CD74HC4067就派上用场了,它可以将16路数字/模拟信号通过4数字+1模拟=5口来读取. 这货长这 ...
C# 对象与JSON字符串互相转换
一.JSON字符串转对象(反序列化) 1.使用Newtonsoft.Json 反序列化字符串转换为指定类型 (T) JsonConvert.DeserializeObject<T>(jso ...
MVC控制器传DataTable
MVC中,控制器return Json(DataTable)会出现错误: 序列化类型为"System.Reflection.RuntimeModule"的对象时检测到循环引用. 解 ...
快速认识什么是：Docker
Docker,一种可以将软件打包到容器中并在任何环境中可靠运行的工具.但什么是容器以及为什么需要容器呢?今天就来一起学快速入门一下Docker吧!希望本文对您有所帮助. 假设您使用 Cobol 构建了 ...
[python]数据分析--数据清洗处理case1
数据预处理案例1 主要涉及pandas读取csv文件,缺失值和重复值处理,分组计数,字段类型转换 ,结果写入到Excel. 根据要求对CSV数据集进行处理要求如下: 保留数据关键信息:time.lat ...
Chrome扩展的核心：manifest 文件（下）
大家好,我是 dom 哥.这是我关于 Chrome 扩展开发的系列文章,感兴趣的可以点个小星星. 在上篇和中篇中已经完成了对 manifest 文件中以下字段的解释: "manifest_ ...
一款开源免费美观的WinForm UI控件库 - ReaLTaiizor
前言今天推荐一款基于MIT license开源.免费.美观的.NET WinForm UI控件库:ReaLTaiizor. 什么是WinForm? WinForm是一个传统的桌面应用程序框架,它基于 ...
【大语言模型基础】60行Numpy教你实现GPT-原理与代码详解
写在前面本文主要是对博客 https://jaykmody.com/blog/gpt-from-scratch/ 的精简整理,并加入了自己的理解. 中文翻译:https://jiqihumanr.g ...
使用.NET Core接入飞书AI
飞书AI接入教程首先,准备俩个账号:ChatGPT账号.飞书账号. 飞书账号请自行注册,访问链接 www.feishu.cn/ 即可登录. 第一步,飞书进入开发者平台.点击创建应用. 填写应用名称和 ...

CVPR2022 前沿研究成果解读：基于生成对抗网络的深度感知人脸重演算法