从CVPR 2014看计算机视觉领域的最新热点

2014看计算机视觉领域的最新热点" title="从CVPR 2014看计算机视觉领域的最新热点">

编者按：2014年度计算机视觉方向的顶级会议CVPR上月落下帷幕。在这次大会中，微软亚洲研究院共有15篇论文入选。今年的CVPR上有哪些让人眼前一亮的研究，又反映出哪些趋势？来听赴美参加会议的微软亚洲研究院实习生胡哲的所见所闻。

作者：胡哲

微软亚洲研究院实习生

计算机视觉（Computer
Vision）是近十几年来计算机科学中最热门的方向之一，而国际计算机视觉与模式识别大会（Conference on Computer
Vision and Pattern Recognition，简称CVPR）绝对是计算机视觉会议中的翘楚。

今年的CVPR在美国俄亥俄州首府哥伦布市（Columbus）召开，地点有点前不着村后不着店的感觉，大多数人都只好老老实实开会。但即便在如此偏远的地方举行会议，CVPR的参会人数还是毫无缩减，这一点在中午领饭的时候可以深深体会到。当然，开会的核心绝对不在于地点和提供的饮食，虽然这也很重要。所有人千里迢迢从全世界过来汇聚在一起的主要目的还是感受流行的研究趋势以及与大家交流各自的研究突破和创新的想法。非常荣幸我这次能有三篇论文被大会录取，这既是对我个人在计算机视觉领域研究的巨大肯定，也让我得以有机会能够去往CVPR大会的现场去感受这个领域最前沿的研究成果和前瞻的趋势。接下来，我就与大家分享一下这次的参会感受。

一、繁荣的深度学习

深度学习（Deep
Learning）是当下最热门的方向之一，今年的论文中标题带deep字眼的论文就有16篇（其中oral presentation
4篇——在CVPR等大型会议中，由于论文数量众多，大部分的论文都是以海报的形式作讲演。而大会的委员会在所有其中挑选少量出色的工作（占所有投稿的5%）面对所有研究者演讲）。深度学习热潮爆发以来，诸多研究者都在不懈地努力着，希望能够把它应用于解决计算机视觉的各种任务上，从高层次（high-level）的识别（recognition），分类（classification）到低层次（low-level）的去噪（denoising）。让人不禁联想起当年的稀疏表达（sparse
representation）的热潮，而深度学习如今的风靡程度看上去是有过之而无不及。深度学习也有横扫high-level问题的趋势，high-level的很多方向都在被其不断刷新着数据。以往的改进都是1，2个点的增长，如今使用深度学习轻松刷出5，6点，这给很多非深度学习方法研究者巨大的压力。虽说深度学习是大热方向，可计算机视觉界的研究者对深度学习的态度也是很鲜明的两派——支持与观望，也给其他研究趋势带来了一些影响（原因接下来说）。作为强大的特征（feature）学习工具，获得大量的支持与推广自然不必说，很多原本观望的研究者们在目睹深度学习的优秀表现后也都开始投身于此。持观望态度的人们一部分可能仍并不了解深度学习的机理，另外一大部分相信是对深度学习将给计算机视觉带来的贡献持保守态度。虽然笔者赞叹于深度学习的强大能力，可对此也是持保守态度。诚然深度学习作为一个工具异常强大。在给定足够多的训练集的情况下，它可以帮助用户学习到这个任务下的具有很强分辨能力的特征。可是这个训练过程近乎黑箱，学习出的系统也很难给解决的问题带来更深刻的理解。

二、为基础模型研究正名

也许因为如此，我认为本次的评奖有些指引方向的感觉。本次大会的最佳论文颁给了研究camera
motion和shape recovery关系的文章What Camera Motion Reveals About Shape with Unknown
BRDF（single author!）, Honorable
mention给了利用structured light研究shape的论文3D Shape and Indirect Appearance by
Structured Light Transport。这两篇论文都可以算是研究3D几何模型的。不仅评奖如此，计算机视觉领域的前辈也亲自站出来力挺一下基础模型的研究，其中Jean
Ponce亲自写了一篇论文(oral)来继续探讨trinocular
geometry的传统假设不成立时如何保证三个相机visual
rays相交的情况。这些论文无一不是对计算机视觉基础问题和基础模型的深入研究，考虑前人没有研究过的问题的系统分析。这些文章的获奖也是鼓励我们年轻研究人员静下心来做基础问题的研究，不轻易追赶当下热潮。做追赶浪潮的弄潮儿容易，可是怎么样保证研究工作不会轻易被遗忘在时间里，或者说怎么做对领域有贡献的研究工作，绝对是我们研究者们需要思考的问题。另外，并不要认为已经写入教科书的内容就已经板上钉钉没有研究价值了。有一些理论也是建立在理想的假设满足的前提下，所以它们仍然可以在质疑的眼光下去进行深造。

三、尚未被深度学习渗透的Low-level
Vision

计算机视觉的问题可以根据他们的研究对象和目标分成三大类，low-level，mid-level,
和high-level。Low-level问题主要是针对图像本身及其内在属性的分析及处理，比如判断图片拍摄时所接受的光照，反射影响以及光线方向，进一步推断拍摄物体的几何结构；再如图片修复，如何去除图片拍摄中所遇到的抖动和噪声等不良影响。High-level问题主要是针对图像内容的理解和认知层面的，比如说识别与跟踪图像中的特定物体与其行为；根据已识别物体的深入推断，比如预测物体所处的场景和即将要进行的行为。Mid-level是介于以上两者之间的一个层面，个人理解是着重于特征表示，比如说如何描述high-level问题中的目标物体，使得这种描述有别于其他的物体。可以大致认为，low-level的内容可以服务于mid-level的问题，而mid-level的内容可以服务于high-level的问题。由于这种分类不是很严格，所以也会出现交叉的情况。深度学习在计算机视觉界主要是作为一种特征学习的工具，可以姑且认为是mid-level的。所以之前提到的high-level的问题受深度学习的影响很大就是这个原因。相比较而言low-level问题受到深度学习的冲击会小很多，当然也有深度学习用于去噪（denoise）和去模糊（deblur）等low-level问题的研究。对于受到深度学习良好表现困扰的年轻研究者们，也不妨来探寻low-level很多有意思的研究。这些年，MIT的Bill
Freeman组就做了一些很有趣的low-level问题，比如放大视频中出现的肉眼难以察觉的细小变化（Eulerian Video Magnification for Revealing
Subtle Changes in the World），还有这次CVPR的文章Camouflaging an Object from Many
Viewpoints就是讲如何在自然环境中放置和涂染一个立方体，让其产生变色龙般的隐藏效果。诸如此类的研究也让研究这件事变得有趣和好玩。

笔者目前也正专注于low-level中去模糊（deblur）的研究。去模糊的意思是借助某种方法将拍照中出现的模糊图像恢复成清晰图像。这个问题是一个已经被研究了很多年的问题——去卷积（deconvolution），自上世纪5，60年代起，就有很多知名研究工作出现。这方面研究到近十年取得了很多突破，在处理相机抖动引起的模糊中出现了不少有影响力的的工作。而Adobe公司2013年将这方面的算法作为一个重要特征放进了Photoshop中，更是成了鼓舞该领域的研究动力。美国FBI就有利用Photoshop的去模糊功能修复图片并帮助破案的例子，笔者去年在Adobe实习期间看到了FBI发来的感谢信。

这次笔者被CVPR
2014录取的三篇文章都是关于去模糊的研究。一篇是针对模糊图像的一个主要来源——暗光照情况下的图像，设计的一个基于光斑（light
streak）的去模糊算法（Deblurring
Low-light Images with Light Streaks）。2014看计算机视觉领域的最新热点" title="从CVPR 2014看计算机视觉领域的最新热点">

这个算法自动检测暗光情况下常见的光斑，并利用光斑作为模糊核（blur
kernel）的约束。它对解决暗光下模糊图片非常有效，而且光斑这一现象不仅出现在低光下，在普通的模糊图像中也会出现，只需要场景中有与周边环境有颜色差别的小型物体出现。读者可以在我的个人主页上下载代码进行尝试。还有一篇是说从一张模糊图像中，我们不仅可以估计相机的抖动，还可以发掘出场景的深度（Joint
Depth Estimation and Camera Shake Removal from
Single）。这乍听上去像是不可能完成的任务，可实际上图像的模糊是同时包含了相机抖动和场景深度信息的。读者也可以这样认为，我们拍摄模糊图像的过程也可以看作是拍摄一小段video的过程，这样的话我们相当于拥有了一个多角度立体（stereo）的输入！第三篇是针对文字模糊图片设计的一个简单有效的算法，可以用于文字识别前的预处理（Deblurring
Text Image via L0-Regularized Intensity and Gradient
Prior）。

四、Depth
Sensor（深度传感器）及深度图像相关

近几年来从Depth
Sensor得到的深度图像的相关研究一直是学术界以及工业界重点关注的问题。特别是工业界，很多Depth
Sensor相关的创业公司如雨后春笋般在业界涌现，他们也获得了广泛的关注和不菲的投资，这次赞助CVPR的就有多家这样的创业公司。不仅如此，很多大公司也都积极的投身于做自己的Depth
Sensor，或者嵌入到自己的产品中。Depth
Sensor为何有如此大的影响力，大家肯定早已有诸多见解。它作为一种新的输入数据，给了传统输入数据（2D）一个新的像素级别的维度——深度。这不仅给研究者们开拓了以RGBD输入数据为核心的旧问题新方向，而且由于深度图像的帮助下也让很多算法更加实用。这也让CV研究离工业界的产品更紧密了。Depth
Sensor的成熟以及CV领域相关研究的发展，也提供给增强现实（Augmented
Reality）这个未来科技感十足的方向一个重要的接口。所有的这些都昭示着Depth
Sensor是一个非常有价值而且在一段时间内还将是非常热门的方向。

微软亚洲研究院在这个方向上也有一篇利用depth
sensor做手部跟踪的oral论文（Realtime
and Robust Hand Tracking from Depth）。通过重新定义手的模型和能量方程，这个工作将手部跟踪做到了实时并且算法也很鲁棒。在PC上不用GPU也达到了25FPS（每秒显示帧数），而平均误差在测试数据上降低到10mm，相比其他方法提升50%左右。对手势的准确识别是现在很流行的一个问题。因为技术的进步已经让传统的输入方式（比如鼠标）处于更新换代的边缘了，如今通过depth
sensor与手势来实现人机的实时交互将可能带来下一个输入方式的革命。所以这个工作是很有价值与深远影响的，也因此而获得了oral演讲的资格。

另外，微软亚洲研究院在今年的CVPR发表的另外一篇oral论文也是应用很广的一个问题——人脸对准（Face
Alignment at 3000 FPS via Regressing Local Binary
Features）。2014看计算机视觉领域的最新热点" title="从CVPR 2014看计算机视觉领域的最新热点">

通过采用局部学习的准则降低随机森林（random
forest）的任务难度，以得到更好的局部特征（local
feature）。同时，整体上的结构学习帮助算法更加鲁棒。这个项目实现了快速的人脸对准以及人脸跟踪。在相同精度下，它比以往的方法快了数十倍，在PC上单核3000FPS，手机上单核300FPS。这个结果很令人振奋，因为手机及移动设备已经很大程度的改变人们的生活方式，可是相比PC，手机的处理能力有限，那么就需要更加快速稳定的算法。这个工作就为在手机及移动设备对人脸的实时处理提供了坚实的基础。

作者简介：

胡哲，微软亚洲研究院实习生，本科毕业于浙江大学，目前在加州大学Merced分校攻读博士。曾在Adobe创新科技实验室实习，研究方向为计算机视觉和图像处理。在CVPR,
ECCV, BMVC等知名国际会议上发表论文7篇（oral 2篇），并担任多家期刊及会议的审稿人，如TIP, ECCV,
ACCV等。

____________________________________________________________________________________

从CVPR 2014看计算机视觉领域的最新热点的更多相关文章

从CVPR 2014看计算机视觉领域的最新热点
编者按:2014年度计算机视觉方向的顶级会议CVPR上月落下帷幕.在这次大会中,微软亚洲研究院共有15篇论文入选.今年的CVPR上有哪些让人眼前一亮的研究,又反映出哪些趋势?来听赴美参加会议的微软亚洲 ...
CVPR 2014 ObjectnessBING 原文翻译
BING: Binarized Normed Gradients for Objectness Estimation at 300fps Ming-Ming Cheng, Ziming Zhang, ...
paper 61：计算机视觉领域的一些牛人博客，超有实力的研究机构等的网站链接
转载出处:blog.csdn.net/carson2005 以下链接是本人整理的关于计算机视觉(ComputerVision, CV)相关领域的网站链接,其中有CV牛人的主页,CV研究小组的主页,CV ...
Behance 大神推荐2019 年所有设计领域的最新趋势！
昨天国内设计界发生了一则重大新闻! 相信大家应该都听说了吧 Behance挂了··· 继续Pinteres之后在一个设计师不用上班的周六我的电脑默默打不开Behance了也就是说大陆地区的ip地 ...
【计算机视觉领域】常用的 feature 提取方法，feature 提取工具包
[计算机视觉领域]常用的 feature 提取方法,feature 提取工具包利用 VL 工具包进行各种特征的提取: VL 工具包官网地址:http://www.vlfeat.org/index.h ...
论文阅读之　Inferring Analogous Attributes CVPR 2014
Inferring Analogous Attributes CVPR 2014 Chao-Yeh Chen and Kristen Grauman Abstract: The appear ...
目标检测--Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014)
Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick J ...
paper 16 : 计算机视觉领域博客资源
这是收录的图像视觉领域的博客资源的第一部分,包含:中国内地.香港.台湾这些名人大家一般都熟悉,本文仅收录了包含较多资料的个人博客,并且有不少更新,还有些名人由于分享的paper.code或者数据集不 ...
目标检测--Scalable Object Detection using Deep Neural Networks(CVPR 2014)
Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander ...

随机推荐

opencv进行视频播放每帧处理，读取视频失败
cv::VideoCapture capture(filename); if (!capture.isOpened()) { cout << "open video error& ...
vue拖拽插件（弹框拖拽）
// =======拖拽插件 cnpm install vuedraggableimport draggable from 'vuedraggable' <draggable v-model= ...
jquery 第一节什么是jQuery
简单来说,jQuery就是javascript的一个框架,也可以说是javascript的一个库.
将元素平分成差值最小的两个集合（DP）
现有若干物品,要分成较为平均的两部分,分的规则是这样的: 1)两部分物品的个数最多只能差一个. 2)每部分物品的权值总和必须要尽可能接近. 现在请你编写一个程序,给定现在有的物品的个数以及每个物品的权 ...
使用Eclipse开发学习 Spring Boot 教程的内容小结
spring-tool-suite使用教程,并创建spring配置文件 Spring Boot基础教程1-Spring Tool Suite工具的安装 Spring Boot基础教程2-RESTful ...
i++ 和 ++i 的区别和实现
++i 和 i++ ++i 和 i++ 的区别 1)i++ 返回的是 i 的值,++i 返回的是 i+1 的值 2)i++ 不能用作左值,++i 可以用作左值左值和右值的区别是什么? 根本区别是:能 ...
PAT Basic 1017 A除以B (20) [数学问题-⼤整数运算]
题目本题要求计算A/B,其中A是不超过1000位的正整数,B是1位正整数.你需要输出商数Q和余数R,使得A = B * Q + R成⽴. 输⼊格式: 输⼊在1⾏中依次给出A和B,中间以1空格分隔. ...
feign声明式客户端
参考地址: https://blog.csdn.net/qq_30643885/article/details/85341275 Feign是一个声明式的Web服务客户端,使得编写Web服务客户端变得 ...
题解-------P4053 [JSOI2007]建筑抢修
传送门贪心+左偏树贪心思路:先修快炸的楼所以我们可以按照$T2$从大到小做一遍排序,然后从$1\cdots n$一个一个去修,如果这栋楼不能修(也就是当前时间已经超过$T2_{i}$),那我们就 ...
893B. Beautiful Divisors#美丽的因子（打表法）
题目出处:http://codeforces.com/problemset/problem/893/B 题目大意:找到一个数在二进制下,最大的以k个连续的1和k-1个连续的0组成的数字作为因子 #in ...

从CVPR 2014看计算机视觉领域的最新热点

从CVPR 2014看计算机视觉领域的最新热点的更多相关文章

随机推荐

热门专题