今天要分享的这篇论文是我个人最喜欢的论文之一,它的思想简单、巧妙,而且效果还相当不错。这篇论文借助数学上的 \(L_0\) 范数工具对图像进行平滑,同时保留重要的边缘特征,可以实现类似水彩画的效果(见下图)。

另外这篇论文的作者徐立也是一个相当高产的研究员。

论文的目的

所谓图像平滑,就是突出图像中的低频成分,抑制高频成分,减小突变的梯度。大部分情况下,这么做的目的是为了去除图像中的噪声,因为噪声一般就是一些孤立的像素点,是像素变化比较大的区域。在传统的图像处理中,大部分操作都是用一些具有平滑性质的卷积核对图像进行模糊处理,最常用的如:高斯模糊、均值滤波等等。这些方法都有一个缺陷,就是在模糊噪声的同时,也模糊了边缘。当然之后也有一些改进的方法,如:双边滤波等,这些方法都在边缘保持上进行了很多改进,但多少还是会损失边缘的信息。本文的方法完全不同于以往的这些算法,它从图像梯度的角度出发,在平滑掉大部分细小的噪声的同时,又能最大限度的保持重要的边缘信息。

论文主要思想

一维图像信号

在正式讲思想之前,我们先回忆一下图像平滑的目标是什么。

为了简单起见,我们先从一维出发,把图像当作一维的信号。那么,图像平滑就是要把那些比较小的类似「褶皱」的地方抹平,而把那些大的「褶皱」,或者更准确地说,变化很大的梯度(边缘)保留下来。上面这幅图展示的是不同算法的平滑效果。可以发现,之前的算法在平滑掉那些坑坑洼洼的「褶皱」的同时,也把可能把属于真正边缘的大的梯度给模糊了(细节放大图如下)

为了避免这种问题,论文提出一种基于 \(L_0\) 范数的能量最小化方法。

所谓 \(L_0\) 范数,指的就是向量中非 0 元素的个数。论文中借用这个概念,提出一个图像梯度数量的计算公式:
\[
c(f)=\#\{p\ \big |\ |f_p-f_{p+1}|\neq 0 \}
\]
公式中,\(f\) 表示我们平滑后的图像,\(\#\) 表示集合中元素 \(p\) 的个数,而 \(p\) 则表示像素位置,因此 \(f_p\) 其实就代表图像 \(f\) 在 \(p\) 这个位置的像素值。

因此这个公式其实就是在计算:满足 \(|f_p-f_{p+1}| \neq 0\) 的像素数量,这个不等式正好就是 \(L_0\) 范数。它的现实意义就是计算图片信号中梯度的数量

有了这个公式后,论文抛出它最核心的目标函数:
\[
\underset{f} {\operatorname {min}} \sum_{p}(f_p-g_p)^2 \ \ \ \ \operatorname{s.t.} \ c(f)=k
\]
公式中的 \(g\) 表示原图像,\(f\) 表示平滑后的图像,\(c(f)\) 就是上面提到的计算梯度数量的公式,它表示 \(f\) 中的梯度数量应该为 \(k\) 个。

这个公式表示的是图像 \(f\) 中每个像素 \(f_p\) 和原图 \(g\) 中每个像素 \(g_p\) 之间的平方差之和。

最小化这个目标函数,其实就是要最小化 \(f\) 和 \(g\) 之间的像素差。如果没有 \(c(f)\) 这个限制,那么最终的优化结果就是 \(f=g\)。但加上 \(c(f)\) 限制后,这个目标函数在尽可能减少两个信号之间的能量差的同时,又要让 \(f\) 中的梯度数量满足 \(k\) 个。换句话说,它要尽可能让 \(f\) 和 \(g\) 相似,同时又抹平 \(f\) 中的梯度。因此,最后的优化结果只能是保留住 \(f\) 中那些梯度比较大的边缘,而平滑掉那些梯度比较小的「褶皱」。

\(c(f)\) 这个限制最大的作用就是防止 \(f\) 出现对边缘的模糊。如果仔细观察上面那张边缘模糊的细节图,你就会发现,造成模糊的原因是我们把原来很「抖」的梯度变「缓」了,而缓的梯度其实是由很多小梯度组成的。\(c(f)\) 的限制正是为了减少这种梯度的数量。因此,为了满足 \(c(f)\),目标函数会让 \(f\) 中的梯度倾向于更「抖」。

最小化能量差减少梯度数量这两个约束的共同博弈下,最终得到了下面的这种很平滑、同时边缘很尖锐的结果:

这种相互制约的想法实在是简单而又精彩!

不过,实际应用中存在一个问题,就是 \(k\) 的变化范围很大,是很难选择的。为了控制 \(k\) 的选择范围,论文把 \(c(f)=k\) 这个约束也加入到目标函数中:
\[
\underset{f}{\operatorname{min}} \{ \sum_p{(f_p-g_p)^2+\lambda c(f)} \}
\]
现在 \(\lambda\) 代替 \(k\) 作为可以调节的参数。\(\lambda\) 越大,目标函数对 \(c(f)\) 的抑制就越大,梯度数量就越少(即边缘越少),反之,梯度数量越大。

二维图像信号

一维信号的约束可以很容易引申到二维信号:
\[
C(S)=\#\{p\ \big | \ |\partial_x S_p|+|\partial_y S_p| \neq 0 \}
\]
\(S\) 类似上面提到的 \(f\),在这里它表示处理后的二维图像,\(\partial_x S_p\) 和 \(\partial_y S_p\) 分别代表在 \(x\) 方向和 \(y\) 方向计算 \(L_0\) 范数。

然后,我们可以用同样的方法得到目标函数:
\[
\underset{S}{\operatorname{min}} \{ \sum_p{(S_p-I_p)^2+\lambda C(S)} \}
\]
公式中 \(I\) 表示原图,其他的类比一维信号的公式。

优化方法

希望有生之年看懂补上。。。

实验结果

上图(e)是论文的方法和其他图像平滑方法的对比,可以看出,这种基于 \(L_0\) 平滑的方法不仅平滑的效果好,而且几乎是原封不动地保留了色块之间的边缘信息。而其他方法在色块(尤其是红色)上的平滑力度不如 \(L_0\) 平滑,且边缘也模糊了不少。

另外,论文的平滑方法在边缘提取上效果也相当的好,下图中,左边(e)是直接对原图用 Canny 提取边缘的结果,右边是先用 \(L_0\) smoothing 进行平滑,再提取边缘的结果,可以看到,平滑后提取的边缘中抹去了很多不重要的细节,而主要的边缘信息都被提取出来。

除此之外,另一个很重要的用途是图像失量化。图像失量化要求图像中的色块数量尽可能少,而这一点正中 \(L_0\) smoothing 下怀。下图中的输入图像具有很多噪声细节,而这些细节用一般的平滑方向是很难根除的,但 \(L_0\) smoothing 由于限制了梯度数量,因此可以产生很「光滑」的色块区域,非常利于失量化操作。

参考

论文笔记:Image Smoothing via L0 Gradient Minimization的更多相关文章

  1. 论文笔记:LightGBM: A Highly Efficient Gradient Boosting Decision Tree

    引言 GBDT已经有了比较成熟的应用,例如XGBoost和pGBRT,但是在特征维度很高数据量很大的时候依然不够快.一个主要的原因是,对于每个特征,他们都需要遍历每一条数据,对每一个可能的分割点去计算 ...

  2. 论文笔记:Towards Diverse and Natural Image Descriptions via a Conditional GAN

    论文笔记:Towards Diverse and Natural Image Descriptions via a Conditional GAN ICCV 2017 Paper: http://op ...

  3. Video Frame Synthesis using Deep Voxel Flow 论文笔记

    Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv 摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索. ...

  4. 论文笔记:Mastering the game of Go with deep neural networks and tree search

    Mastering the game of Go with deep neural networks and tree search Nature 2015  这是本人论文笔记系列第二篇 Nature ...

  5. 论文笔记:CNN经典结构1(AlexNet,ZFNet,OverFeat,VGG,GoogleNet,ResNet)

    前言 本文主要介绍2012-2015年的一些经典CNN结构,从AlexNet,ZFNet,OverFeat到VGG,GoogleNetv1-v4,ResNetv1-v2. 在论文笔记:CNN经典结构2 ...

  6. 【论文笔记系列】AutoML:A Survey of State-of-the-art (下)

    [论文笔记系列]AutoML:A Survey of State-of-the-art (上) 上一篇文章介绍了Data preparation,Feature Engineering,Model S ...

  7. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

  8. 论文笔记之:Visual Tracking with Fully Convolutional Networks

    论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...

  9. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

随机推荐

  1. [kuangbin带你飞]专题二十二 区间DP-B-LightOJ - 1422

    题意大概是这样,第i天必须穿a[i](某一种类)的衣服,你可以套着穿很多件,对于第i天,你有两种操作,一种是脱掉现在的衣服,一种是穿上新的一件,但是你脱掉的衣服,以后不能再穿.问最少需要多少件衣服? ...

  2. Mistwald zoj 3497

    链接 [https://vjudge.net/contest/294259#problem/K] 题意 就是有个m*n矩阵 出发(1,1) 出口(m,n) 然后给出每个点能到大的四个位置 而且一旦到达 ...

  3. CentOS配置svn

    参考: https://www.cnblogs.com/taohaijun/p/7172939.html 1.检查已安装版本  rpm -qa subversion 卸载旧版本SVN yum remo ...

  4. Asp.net mvc 动作方法中 调用 另一个控制器的动作方法

    public ActionResult 动作方法(){ var otherController = DependencyResolver.Current.GetService<另一个控制器的类名 ...

  5. Appium 客户端类库

    Appium 支持以下语言的客户端类库: 语言 Ruby Python Java JavaScript PHP C# Objective-C 锁定注意,一些方法类似 endTestCoverage() ...

  6. .netcore2.0发送邮件

    SmtpClient smtpClient = new SmtpClient(); smtpClient.DeliveryMethod = SmtpDeliveryMethod.Network;//指 ...

  7. CentOS7使用yum安装MySQL8.0

    1.yum仓库下载MySQL:sudo yum localinstall https://repo.mysql.com//mysql80-community-release-el7-1.noarch. ...

  8. bzoj 2002 : [Hnoi2010]Bounce 弹飞绵羊 (LCT)

    链接:https://www.lydsy.com/JudgeOnline/problem.php?id=2002 题面: 2002: [Hnoi2010]Bounce 弹飞绵羊 Time Limit: ...

  9. Codeforces Round #549 (Div. 1)

    今天试图用typora写题解 真开心 参考 你会发现有很多都是参考的..zblzbl Codeforces Round #549 (Div. 1) 最近脑子不行啦 需要cf来缓解一下 A. The B ...

  10. js-sha256源码

    /** * [js-sha256]{@link https://github.com/emn178/js-sha256} * * @version 0.9.0 * @author Chen, Yi-C ...