《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》研读笔记

《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》研读笔记

论文标题：DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks

来源：ICCV 2017

摘要：

　　尽管手机中的嵌入式照相机的性能在快速地发展，但是它们所受到的物理限制——较小的感光器件，精简的镜头和缺少特定的硬件——制约着手机的相机拍出与DSLR（单反）同样质量的照片。在本工作中，我们展示了一个端对端的深度学习的方法来弥补这一差距，该方法可以通过将原始的手机相片转换为高质量的单反相机拍出来的图片。我们提出通过应用残差卷积神经网络来提升图片的颜色呈现和图像的锐度。由于标准的均方误差并不适合用来衡量图像的感知质量，因此我们引入了一个由内容误差、颜色误差与纹理误差合成的感知误差函数。头两个误差通过分析得出，纹理误差则通过一种对抗式的方式学习得到。我们还展示了DPED，一个大规模的包含采自于三个不同的手机和一个高端反光相机图片的数据集。我们定量和定性的评估表明通过所提出的算法增强后的图片的质量和单反相机拍出的照片的质量是相当的，同时结果还表明该方法还可以被应用任何类型的数码相机中。

论文主要内容：

1、引言

　　尽管最近几年手机相机中使用的精简的感光单元取得了极大的进步，使得手机的拍照效果获得了巨大的提升。然而，目前手机的拍照效果依然不如单反数码相机的效果好。因为单反相机有着更大的感光单元和大口径光学镜头，这使得照片能够有更好的分辨率、颜色呈现效果。鉴于额外的感光器件帮助调整拍摄参数，也有着更低的噪声。这些物理差异为手机相机的拍照质量造成了极大的阻碍，使其难以获得与单反相机同样的拍摄效果。现有的一些图像自动增强的工具一般都关注的是全局参数的调整，例如：对比度和亮度，忽视了纹理的质量与图像的语义。此外，这些工具一般都使用一些预定义（pre-defined）的规则，而并没有考虑到某一设备的特性。因此，图片处理的主要方式人工通过某种图像修整工具来完成。

1.1 相关研究

　　图像质量增强和如下的几个子领域有关：

　　（1）图像超像素（super-resolution）；

　　（2）图像去雾(dehazing)；

　　（3）图像去噪(denoising)；

　　（4）图像上色(colorization)；

　　（5）图像调整：曝光调整、风格调整等。

1.2 贡献

　　（1）提出了一个新的图像增强算法，该算法基于学习手机设备照片与DSLR所拍摄的照片之间的映射函数。目标模型使用一个端对端的训练方式，因此不需要任何额外的监督或者特征工程；

　　（2）采集了一个大规模的超过6000照片的数据库，这些照片涵盖了很多场景，并且是同时由三个低端手机相机与DSLR相拍摄得到的；

　　（3）提供了一个由颜色损失、纹理损失及内容损失所组成的损失函数，保证有效的图像质量估计；

　　（4）进行了客观的、主观实验，显示了被增强的图片对原始图片的优势，同时也展现了其与单反相机间相当的质量。

2、DPED数据库

　　该数据库通过对同一场景，分别使用四个取相设备来获得。取相设备中包括三个手机相机和一个单反相机。用来采集图像的设备如下图2所示。一些图片样例子如图3所示。

　　为了保证对每一场景，四个相机能够同时取相，因此将这些设备都方式在一个三角架上面，通过无限控制系统来远程启动这四个设备。这些图像都是通过各个相机的默认设置来获取的。由于各个取相设备之间的位置和观察角度存在着区别，因此所拍出来的图片并没有很好地配准。因此文章作者还提出使用非线性变换来获得固定分辨率地图片。方法大致为：计算每一对相机图片与单反图片之间的匹配SIFT关键点。然后使用使用RANSAC来估计一个homography。最后对两张图片进行裁切，保留重叠的部分，将单反的图片的尺寸变为手机相片的尺寸。在训练CNN的时候使用的是从图片中抽取的100*100的图片块。这些图片块是使用不重叠的滑动窗口来从相机-单反图片对中抽取的。

、方法

3.1 损失函数

）颜色质量；2）纹理质量；3）内容质量。下面逐一介绍衡量这些质量的损失函数。

）颜色损失

　　使用经过高斯模糊之后的图片之间的欧时距离来衡量被增强后的图片与目标图片之间的颜色损失。

）纹理损失

　　基于GAN来直接学习一个合适的衡量纹理质量的标准。

）内容损失

　　使用VGG-19网络中relu 5_4层所产生的特征图之间的差异来表示图片之间的内容差异。

　　）总变化误差

　　使用所生成图片在两个方向上的梯度平均值。

　　）总误差

3.2 模型架构

　　架构如下图，算法代码地址为：http://people.ee.ethz.ch/~ihnatova/index.html。

、实验

　　通过与一些相关方法和工具之间进行定性与定量的比较来评价算法的效果

4.1 对比方法

　　比较的方法与工具包括：

　　Apple Photo Enhancer(APE)：自动化图像增强的商业软件；

　　Dong et. al：超像素方法；

　　Johnson et. Al：超像素方法；

张图片进行颜色、锐度及总体感觉进行手动调整。

4.2 量化评价

　　使用PSNR及SSIM作为衡量标准来量化比较APE、Dong et. al及Johnson et. al及文章中所提出算法的表现。计算应用上述四种方法处理后的图片与由单反拍摄的图片之间的PSNR与SSIM。数据如下表所示。

4.3 用户研究

　　由于本文的目标是将手机拍摄的照片转化为单反的质量。为了衡量总体的质量，我们设计了一个无参照的用户研究。在用户研究中，被试人被要求从所展示的图片中选择看起来最好的一张图片。主要进行的比较实验包括：

）原始底端相机拍摄的图片、单反相机拍摄的图片与由所提出的方法增强过的图片。

个场景的图片个底端相机，因此本次实验一共要进行81次询问。

）只使用iPhone所拍摄的图片，分别与由专家修饰过的图片、由APE自动调整过的图片和由本文所提出方法转换过的图片进行比较。上述两个实验的结果如下：

　　图中前三个子图表示的是第一个比较试验的结果。第四表示的是第二个比较试验的结果。每一个柱子都代表着实验中某一种图像被选择的比例。

《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》研读笔记的更多相关文章

Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition 转载请注明:http://blog.csdn.net/stdcou ...
目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangy ...
VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zi ...
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zh ...
SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
http://www.dengfanxin.cn/?p=403 原文地址我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加 ...
2014-VGG-《Very deep convolutional networks for large-scale image recognition》翻译
2014-VGG-<Very deep convolutional networks for large-scale image recognition>翻译原文:http://xues ...
深度学习论文翻译解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神 ...
论文笔记：（2019CVPR）PointConv: Deep Convolutional Networks on 3D Point Clouds
目录摘要一.前言 1.1直接获取3D数据的传感器 1.2为什么用3D数据 1.3目前遇到的困难 1.4现有的解决方法及存在的问题二.本文idea 2.1 idea来源 2.2 初始思路 2.3 ...
[CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } p. ...

随机推荐

mysql5.7中timestam默认值'0000-00-00 00:00:00'报错
在mysql5.7中设置 timestamp NOT NULL DEFAULT '0000-00-00 00:00:00'会报错: 解决办法: mysql> set sql_mode='NO_A ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
go语言的常量
Go 语言常量常量是一个简单值的标识符,在程序运行时,不会被修改的量. 常量中的数据类型只可以是布尔型.数字型(整数型.浮点型和复数)和字符串型. 常量的定义格式: const identifier ...
form表单中的button自动刷新页面问题
form表单中如果存在button的话,有可能会出现一个问题:点击button,触发了页面的自动刷新事件. 原因是因为<button>标签默认的类型是submit,即默认的button点击 ...
Python 从入门到进阶之路（三）
在之前的文章我们介绍了一下 Python 中 if while for 的使用,本章我们来看一下 Python 中的变量类型. 在 Python 定义变量时的规则是变量名 = 变量 ,Python ...
使用策略模式重构switch case 代码
目录 1.背景 2.案例 3.switch…case…方式实现 4.switch…case…带来的问题 5.使用策略模式重构switch…case…代码 6.总结 1.背景之前在看<重构 ...
Vim 宏实战操作
宏的概念什么是宏呢?英文名:macro,代表一串命令的集合. 示例操作文本 SELECT * FROM `edu_ocr_task` WHERE ((`userId`=284871) AND (`u ...
Thymeleaf常用语法：表达式语法之运算符
Thymeleaf表达式语法之常量分为字符串常量.数字常量.布尔值常量.空值常量:运算符分为算术运算符.关系运算符.条件运算符.无操作符. 开发环境:IntelliJ IDEA 2019.2.2Spr ...
vs code 运行 Django 怎么修改端口
1.具体操作步骤如下默认情况下,通过 python manage.py runserver 命令行模式默认打开是 8000 端口,如下图所示: 在浏览器预览效果如下: 为了防止端口冲突,我们一般会修 ...
Ubuntu下doxygen+graphviz使用概录
关键词:doxygen.Doxyfile.doxywizard.dot.graphviz等等. 使用doxygen从源码注释生成帮助文档或者SDK,输出格式有多种比如htmp.Latex等等. 如果想 ...

《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》研读笔记

《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》研读笔记的更多相关文章

随机推荐

热门专题