1. 要点
2. 压缩视频特性分析
- 2.1 质量波动
- 2.2 帧间相关性
3. 方法
4. 实验
5. 不足和展望
6. 其他

前景提要
这篇论文是Multi-frame quality enhancement for compressed video（CVPR 2018）的期刊版本，2019年9月26日被TPAMI（2018年IF=17.730）接收。博主和关振宇导师是共同一作，徐迈老师是通讯作者。

开源代码：https://github.com/RyanXingQL/MFQEv2.0

Citation

@ARTICLE{8855019,
author={Z. {Guan} and Q. {Xing} and M. {Xu} and R. {Yang} and T. {Liu} and Z. {Wang}},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
title={{MFQE} 2.0: A New Approach for Multi-frame Quality Enhancement on Compressed Video},
year={2019},
volume={},
number={},
pages={1-1},
keywords={Quality enhancement;compressed video;deep learning},
doi={10.1109/TPAMI.2019.2944806},
ISSN={},
month={},}

1. 要点

本文提出了一种针对压缩视频的质量增强方法。创新点：

前人的工作大多忽略了帧间相关性。本文利用了视频的帧间相关性。
我们应该是第一个考虑了压缩视频的特性：质量波动。
MFQE应该是第一个运动补偿+质量增强的end-to-end方法。
本文提出的方法，核心思想是好帧补偿差帧，是非常具有insight的方法。

我们看图说话：

如图上半部分黑线，压缩视频中存在显著的质量（本文考虑PSNR）波动状况。其中，第92帧和第96帧达到了PSNR局部极大值点，中间的第95帧处在PSNR局部极小值点。
如图下半部分，质量好帧——第92和96帧中的篮球比较清晰，而质量差帧——第95帧中的篮球质量很差（马赛克严重）。
在我们的MFQE算法中，在增强第95帧时，92帧和96帧的信息也会被参考，使得增强效果显著好于图像增强方法DS-CNN（橙色框）。

2. 压缩视频特性分析

2.1 质量波动

首先，我们以压缩视频库中的6个视频为例，看一看质量波动性：

可见，无论是HEVC、H264还是MPEG-1/2/4，这种质量波动性都是存在的，并且在HEVC中尤为明显。本文以HEVC为主要分析对象。

进一步，我们对这种质量波动性进行量化。我们衡量两个指标：

相邻的好帧和差帧的PSNR差值。差值越大，说明局部质量波动越厉害。这就是所谓的峰值-谷值差值（Peak-Valey Difference, PVD）。
整个视频PSNR的标准差。标准差越大，说明该视频的PSNR越不稳定，即全局质量波动越厉害。这就是文中的SD。

我们在整个视频库（108个视频）中统计了上述两个指标的平均值，结果如表：

质量波动性有两点意义：

PVD大，说明好帧、差帧质量差距大，说明差帧借助好帧提升质量的潜力很大。
SD大，说明好帧补偿差帧的方法非常适用于压缩视频。

2.2 帧间相关性

进一步，我们得看看好帧补偿差帧是否可行。我们测量了相邻若干帧的两帧之间的相关系数及其标准差，如图：

结果说明：

时序相关性很强：前后距离10帧内，平均相关系数都能超过0.75。
时序相关性保持较稳定：标准差较小。

那么，压缩视频中好帧（局部质量峰值）之间的平均距离大概是多少呢？我们在上一个表格中展示了PS这个指标，在HEVC大概是2.66。好帧之间的距离如此近，结合上图可知，两个相邻好帧与它们中间的差帧之间的相关性极高。

总之，我们的思想是有前景的！

3. 方法

我们的MFQE方法由一个框图说明：

首先，我们用一个分类器，将视频中的好帧（质量局部极大值）找出来。
对于每一个差帧（只要不是局部极大值，就算差帧），借助其相邻的两个好帧，我们进行质量增强。
在质量增强之前，这两个好帧要进行运动补偿，补偿到差帧所处时刻的状态。
好帧也进行同样的流程，此时好帧借助的是相邻好帧。

批注：MFQEv1.0对于好帧的增强采用的是图像增强方法DS-CNN。这里好帧也用相邻好帧进行增强，得到了审稿人好评，因为网络得到了统一和简化。

3.1 分类器

分类器用BiLSTM搭建。对于每一帧，我们都采用参考文献[2]提供的质量评估方法，得到一个36维的向量；然后我们再添加这一帧的比特率和QP（这些都可以从码流中轻易获得），得到一个38维的向量，表征这一帧，输入BiLSTM网络。

理想状况下，BiLSTM能够通过比较这些特征向量，找出局部质量极大值点。

要注意，这是一个无参考（no-reference）的分类器：即不需要原始无损视频信息，不需要PSNR信息，而是通过传统的质量评估方法获得的“特征向量”，再进行学习。

批注：MFQEv1.0中的分类器采用的是SVM。这里用BiLSTM，极大提升了分类准确率，并且降低了分类难度，提升了分类速度。

3.2 好帧运动补偿

为了让整体网络可以端到端训练，这里的运动补偿网络采用的是基于CNN的光流预测网络[29]。

3.3 质量增强网络

运动补偿后的好帧，与差帧一起输入网络。在前端，我们采用了三种scale的特征提取；在后端，我们采用了稠密连接和BN技巧。整体上，我们还采用了短连接。

批注：MFQEv1.0中的质量增强网络是渐进融合网络，效果差得多，参数量也大得多（5倍以上）。

4. 实验

4.1 差帧质量提升效果

好帧在文中就是PQF，差帧就是non-PQF。如图，MFQEv2.0算法在好帧增强上略高于其他算法，但在差帧增强方面显著高于其他算法。这就体现了MFQEv2.0的优势。

4.2 总体效果

我们以PSNR的增强数据为标准。如大表格：

在国际标准测试序列（18个视频）上，MFQEv2.0全面胜出，展现出较好的泛化能力。

编码领域通常还衡量BDBR指标。我们看看结果：

图像方法最多能到9%，而MFQE方法能达到14%。

4.3 缓和压缩视频的质量波动

由于MFQEv2.0对差帧的提升非常显著，因此可以缓和质量波动现象。我们通过SD和PVD的下降程度来验证这一点：

如图，PSNR的标准差显著下降，而峰值-谷值差距减小，说明质量波动下降明显。此外，我们以两个视频的PSNR曲线举例说明：

显然，MFQEv2.0增强后，PSNR曲线最为平滑。

4.4 网络速度

MFQEv2.0不仅效果好，而且参数少、帧速率快。这进一步说明了多帧方法的优势：我们不需要冗余的网络，多帧信息是我们的杀手锏。

如图，其中DS-CNN就是SOTA的单帧方法。

4.5 主观效果

5. 不足和展望

MFQE算法依赖于较为精确的运动补偿（光流预测）。如果运动补偿不准确，那么总体效果可能不理想。现在已经有一些方法跳过了这一步骤，例如使用Conv-LSTM直接输入相邻帧。但是这一点有利有弊，隐式（implicitly）地建模运动（motion），增强性能可能不增反降，因为学习难度增加了。
我们只考虑了客观质量PSNR。如果进一步考虑感知质量（perceptual loss）等，主观效果会更好。

6. 其他

根据其他老师和童鞋的反馈，该算法在不finetune的情况下，在VVC等标准的视频上，也能有很高的dpsnr和dssim。
实验上看，简单的相邻帧补偿或差帧补偿好帧，效果是很不理想的。所以“好帧”补偿“坏帧”是本文MFQE框架成功的关键。
在补偿时要注意：输入的三帧必须在同一场景下。一个视频中可能存在场景切换。可以用SSIM等指标检测切换。
在训练时，第一阶段的运动补偿网络收敛比较缓慢，可能在前8个epoch的dpsnr都在0dB左右。这是因为训练分为两阶段，整体收敛有难度。
最后，欢迎大家引用TPAMI作为参考文献，比arXiv更有权威呀！再次放上citation：

@ARTICLE{8855019,
author={Z. {Guan} and Q. {Xing} and M. {Xu} and R. {Yang} and T. {Liu} and Z. {Wang}},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
title={{MFQE} 2.0: A New Approach for Multi-frame Quality Enhancement on Compressed Video},
year={2019},
volume={},
number={},
pages={1-1},
keywords={Quality enhancement;compressed video;deep learning},
doi={10.1109/TPAMI.2019.2944806},
ISSN={},
month={},}

IEEE Early Access上也能下载Bibtex的引用信息：https://ieeexplore.ieee.org/document/8855019。感谢阅读！欢迎到GitHub上下载代码测试！~

Paper | MFQE 2.0: A New Approach for Multi-frame Quality Enhancement on Compressed Video的更多相关文章

Paper | BLIND QUALITY ASSESSMENT OF COMPRESSED IMAGES VIA PSEUDO STRUCTURAL SIMILARITY
目录 1. 技术细节 1.1 得到MDI 1.2 判别伪结构,计算伪结构相似性 2. 实验动机:作者认为,基于块的压缩会产生一种伪结构(pseudo structures),并且不同程度压缩产生的伪 ...
Paper | Predicting the Quality of Images Compressed After Distortion in Two Steps
目录 1. 问题本质剖析 2. 方法细节图像质量评估大佬AC Bovik的论文,发表在2019 TIP上. 考虑的问题:对于有参考图像质量评估(R-IQA)任务,参考图像有时是有损的.这会导致评估的 ...
【论文学习】A Fuzzy-Rule-Based Approach for Single Frame Super Resolution
加尔各答印度统计研究所,作者: Pulak Purkait (pulak_r@isical.ac.in) 2013 年代码:CodeForge.cn http://www.codeforge.cn/ ...
Paper | 帧间相关性 + 压缩视频质量增强（MFQE）
目录 1. ABSTRACT 2. INTRODUCTION 3. RELATED WORKS 3.1. Quality Enhancement 3.2. Multi-frame Super-reso ...
Deep Learning-Based Video Coding: A Review and A Case Study
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 1.Abstract: 本文主要介绍的是2015年以来关于深度图像/视频编码的代表性工作,主要可以分为两类:深度编码方案以及基于传统编码方 ...
{ICIP2014}{收录论文列表}
This article come from HEREARS-L1: Learning Tuesday 10:30–12:30; Oral Session; Room: Leonard de Vinc ...
JPEG压缩图像超分辨率重建算法
压缩图像超分辨率重建算法学习超分辨率重建是由一幅或多幅的低分辨率图像重构高分辨率图像,如由4幅1m分辨率的遥感图像重构分辨率0.25m分辨率图像.在军用/民用上都有非常大应用. 眼下的超分辨率重建方 ...
3.EF 6.0 Code-First实现增删查改
原文链接:http://www.c-sharpcorner.com/UploadFile/3d39b4/crud-operations-using-entity-framework-5-0-code- ...
【墙内备份】Android 6.0 APIs
Android 6.0 APIs In this documentSHOW MORE Fingerprint Authentication Confirm Credential App Linking ...

随机推荐

java.lang.IllegalArgumentException: A null value cannot be assigned to a primitive type
今天做项目测试接口,查询数据时出现以下错误,记录一下. 查询语句和错误信息: 实体类属性原因是由于字段 total和receive 在实体类中使用的是 int类型,但是数据库中查询出来的数据为nu ...
oralce迁移Mysql问题总结
最近从oracle数据库迁移到Mysql, 总结了一些不兼容和需要注意的地方,持久层用的Mybatis 1 guid尽量用代码生成现象:sys_guid() mysql报错,mysql对应的为UU ...
AVLTree的Python实现
AVLTree 自己最近在学习数据结构,花了几天理解了下AVLTree的实现,简单一句话概括就是先理解什么是旋转,然后弄明白平衡因子在各种旋转后是如何变化的.最后整理了下学习的过程,并尽量用图片解释, ...
08-kubernetes 存储卷
目录存储卷 emptyDir 测试及使用 Pod测试挂在共享NFS 写测试清单测试 pv, pvc 创建几个PV 创建测试的Pod 和 PVC 存储卷分为四种: 有状态,需要存储有状态,无需存 ...
pngquant——一个好用的png压缩工具
一个可以进行有损图片压缩的命令行工具和代码库. 网址:https://pngquant.org/ 1.为什么选择pngquant 传说中的神器——tinyPng 我们现在用的工具——ImageAlph ...
Linux内核设计与实现笔记_1_基本概念
Linux内核设计与实现笔记_1_基本概念操作系统系统这个词包含了操作系统和所有运行在它上面的应用程序.操作系统是指在整个系统中负责完成分最基本功能和系统管理的那些部分,这些部分应该包括: 内核, ...
用Selenium自动化测试时，让ChromeDriver中不显示“正受到自动测试软件控制”
背景: 在用Selenium做自动化测试的时候,默认ChromeDriver是会提示“Chrom正受到自动测试软件控制”的.如下图这样.但我们有些场景下,不希望这个提示出现.本文探索了几种语言去掉这个 ...
[TimLinux] django 全局变量在WSGI多进程多线程环境中的研究
场景1: 2个进程,每个进程1个线程,请求函数中设置了10秒sleep,9个请求同一URL: 结果: 1. 全局变量ID值,在每一个进程中相同,不同进程中不相同 2. 并行只能接受2个请求,同时发起多 ...
第4节：Java基础 - 必知必会（中）
第4节:Java基础 - 必知必会(中) 本小节是Java基础篇章的第二小节,主要讲述抽象类与接口的区别,注解以及反射等知识点. 一.抽象类和接口有什么区别抽象类和接口的主要区别可以总结如下: 抽象 ...
POJ 3281 Dining(网络流-拆点)
Cows are such finicky eaters. Each cow has a preference for certain foods and drinks, and she will c ...

Paper | MFQE 2.0: A New Approach for Multi-frame Quality Enhancement on Compressed Video