图像的稀疏表示——ScSPM和LLC的总结

前言

上一篇提到了SPM。这篇博客打算把ScSPM和LLC一起总结了。ScSPM和LLC其实都是对SPM的改进。这些技术，都是对特征的描述。它们既没有创造出新的特征（都是提取SIFT,HOG, RGB-histogram et al），也没有用新的分类器（也都用SVM用于最后的image classification），重点都在于如何由SIFT、HOG形成图像的特征（见图1）。从BOW，到BOW+SPM，都是在做这一步。说到这，怕会迷糊大家------SIFT、HOG本身不就是提取出的特征么，它们不就已经形成了对图像的描述了吗，为啥还有我后面提到的各种BOW云云呢。这个问题没错，SIFT和HOG它们确实本身已经是提取到的特征了，我们姑且把它们记为x。而现在，BOW+SPM是对特征x再进行一层描述，就成了Φ(x)——这相当于是更深一层（deeper）的model。一个十分相似的概念是SVM里面的核函数kernel，K=Φ(x)Φ(x)，x是输入的特征，Φ(x)则对输入的特征又做了一层抽象（不过我们用核函数没有显式地对Φ(x)做定义罢了）。根据百度的余凯老师在CVPR2012的那个Tutorial上做的总结[5]：Deeper model is preferred，自然做深一层的抽象效果会更好了。而Deep Learning也是同样的道理变得火了起来。

再次盗用一些余凯老师在CVPR2012的那个Tutorial上的一些图：

图（1）

SPM，ScSPM，LLC所做的工作也都集中在design feature这一步，而不是在Machine Learning那一步。值得注意的是，我们一直在Design features，而deep learning则是design feature learners。

BOW+SPM的整体流程如图(2)所示：

图（2）

Feature Extraction的整体过程就是先提取底层的特征（SIFT，HOG等），然后经过coding和pooling，得到最后的特征表示。

----Coding: nonlinear mapping data into another feature space

----Pooling: obtain histogram

而SIFT、HOG本身就是一个coding+pooling的过程，因此BOW+SPM就是一个两层的Coding+Pooling的过程。所以可以说，SIFT、SURF等特征的提出，是为了寻找更好的第一层Coding+Pooling的办法；而SPM、ScSPM、LLC的提出，是为了寻找更好的第二层Coding+Pooling的办法。而ScSPM和LLC所提出的更好的Coding办法就是Sparse Coding。

图（3）

再前言

在总结ScSPM之前又要啰嗦些话。为啥会有SPM→ScSPM呢？原因之一是为了寻找better coding + better pooling的方式提高性能，原因之二就是提高速度。如何提高速度？这里的速度，不是Coding+Pooling的速度，而是分类器的速度。SPM设计的是一个Linear feature，在文章中作者用于实验则是用了nonlinear SVM（要用Mercer Kernels）。相比linear SVM，nonlinear SVM在training和testing的时候速度会慢的。至于其原因，我们不妨看看SVM的对偶形式：

(1)

如果核函数是一个线性的kernel：K(z, z_i)=z^Tz_i，那么SVM的决策函数就可以改写为：

(2)

从两式可以看见，抛开训练和存储的复杂度不说，对于测试来说，（1）式对每个测试样本要单独计算K(z, z_i)，因此testing的时间复杂度为O(n)。而（2）式的w^T可以一次性事先算出，所以每次testing的时间复杂度为O(1)。此外，linear classifier的可扩展性会更好。

因此，如果能在coding+pooling后设计得到线性可分的特征描述，那就最好了。因此能否设计一个nonlinear feature + linear SVM得到与 linear feature + nonlinear SVM等效甚至更好的效果，成为ScSPM和LLC的研究重点。

ScSPM

SPM在coding一步采用的是Hard-VQ，也就是说一个descriptor只能投影到dictionary中的一个term上。这样就造成了明显的重建误差（worse reconstruction，large quantization errors）。这样，原本很相似的descripors经过coding之后就会变得非常不相似了。ScSPM为此取消了这一约束，它认为descripor可以投影到某几个terms上，而不仅仅是一个。因此，其目标函数变成了：

(3)

其中M是descriptor的数目，Um表示第m个descriptor在字典V上的投影系数。

它对投影系数用L1-norm做约束实现了稀疏。求解问题称为LASSO (least absolute shrinkage and selection operator)，在得到稀疏结果的同时，它无法得到解析解，因此速度肯定是很慢的。关于L1-norm和LASSO问题，可以参看这里。

为什么Sparse Coding好，主要有以下几个原因：

1）已经提到过的重建性能好；[2]

2）sparse有助于获取salient patterns of descripors；[2]

3）image statistics方面的研究表明image patches都是sparse signals；[2]

4）biological visual systems的研究表明信号的稀疏特征有助于学习；[4]

5）稀疏的特征更加线性可分。[2]

总之，"Sparse coding is a better building block“。

Coding过后，ScSPM采用的Pooling方法是max pooling：Z_j=max U_ij。相比SPM的average pooling：Z_j=1/M *Σ U_ij。可以看见average pooling是一个linear feature representation，而max pooling是nonlinear的。我是这么理解再前言中提到的linear和nonlinear feature的。

作者在实验中得出max pooling的效果好于average pooling，原因是max pooling对local spatial variations比较鲁棒。而Hard-VQ就不好用max pooling了，因为U中各元素非0即1。

另外实验的一个有趣结果是发现ScSPM对大的codebook size表现出更好的性能，反观SPM，codebook大小对SPM结果影响不大。至于为啥，我也不懂。

LLC和ScSPM差不多了，也是利用了Sparsity。值得一说的是，其实Hard-VQ也是一种Sparse Coding，只不过它是一种重建误差比较大的稀疏编码。LLC对ScSPM的改进，则在于引入了locality。为了便于描述，盗用一下论文的图：

图（4）

这个图实在是太棒了，太能解释问题了。VQ不用说，重点在于SC和LLC之间，LLC引入了locality的约束，即不仅仅是sparse要满足，非零的系数还应该赋值给相近的dictionary terms。作者在[4]中解释到，locality 很重要是因为：

1）nonlinear function的一阶近似要求codes是local的；

2）locality能够保证codes的稀疏性，而稀疏却不能保证locality；

3）稀疏的coding只有再codes有局部性的时候有助于learning。

总之，"locality is more essential than sparsity"。

LLC的目标函数是：

(4)

和（3）一样，（4）可以按照加号的前后分成两部分：加号前的一项最小化是为了减少量化误差（学习字典、确认投影系数）；加号后的一项则是做出假设约束（包括是一些参数的regularization）。这个求解是可以得到闭合解的，同时也有快速的近似算法解决这个问题，因此速度上比ScSPM快。

di描述的是xi到每个dictionary term的距离。显然这么做是为了降低距离大的term对应的系数。

locality体现出的最大优势就是，相似的descriptors之间可以共享相似的descriptors，因此保留了codes之间的correlation。而SC为了最小化重建误差，可能引入了不相邻的terms，所以不能保证smooth。Hard-VQ则更不用说了。

实验部分，则采用max pooling + L2-normalization。

文章的最后，盗窃一个ScSPM第一作者的总结表格结束吧（又是以偷窃别人图标的方式结束）

References：

[1] S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. CVPR2006

[2] Jianchao Yang, Kai Yu, Yihong Gong, and Thomas Huang. Linear spatial pyramid matching using sparse coding for image classification. CVPR2009.

[3] Jinjun Wang, Jianchao Yang, Kai Yu, Fengjun Lv, and Thomas Huang. Locality-constrained linear coding for image classification. CVPR2010

[4] Kai Yu, Tong Zhang, and Yihong Gong. Nonlinear learning using local coordinate coding. NIPS2009.

[5] Kai Yu. CVPR12 Tutorial on Deep Learning: Sparse Coding.

-----------------------

作者：jiang1st2010

引用请注明来源：http://blog.csdn.net/jwh_bupt/article/details/9837555

图像的稀疏表示——ScSPM和LLC的总结的更多相关文章

在线场景感知：图像稀疏表示—ScSPM和LLC总结(以及lasso族、岭回归)
前言: 场景感知其实不分三维场景和二维场景,可以使用通用的方法,不同之处在于数据的形式,以及导致前期特征提取及后期在线场景分割过程.场景感知即是场景语义分析问题,即分析场景中物体的特征组合与相应场景的 ...
ScSPM
Linear Spatial Pyramid Matching using Sparse Coding for Image Classification (CVPR'09) 稀疏编码系列: (一)-- ...
理解sparse coding
理解sparse coding 稀疏编码系列: (一)----Spatial Pyramid 小结 (二)----图像的稀疏表示——ScSPM和LLC的总结 (三)----理解sparse codin ...
Spatial Pyramid Matching 小结
Spatial Pyramid Matching 小结稀疏编码系列: (一)----Spatial Pyramid 小结 (二)----图像的稀疏表示——ScSPM和LLC的总结 (三)----理解 ...
三维重建：SLAM的粒度和工程化问题
百度百科的定义.此文引用了其他博客的一些图像,如有侵权,邮件联系删除. 申明一下,SLAM不是一个算法,而是一个工程. 在计算机视觉中, 三维重建是指根据单视图或者多视图的图像重建三维信息的过程. 由 ...
ScSPM & LLC
为啥会有SPM→ScSPM呢?原因之一是为了寻找better coding + better pooling的方式提高性能,原因之二就是提高速度.如何提高速度?这里的速度,不是Coding+Pooli ...
C++版的LLC代码
图像稀疏编码总结:LLC和SCSPM,文章对稀疏编码讲解非常详细. <Locality-constrained Linear Coding for Image Classification> ...
paper 119：[转]图像处理中不适定问题-图像建模与反问题处理
图像处理中不适定问题作者:肖亮博士发布时间:09-10-25 图像处理中不适定问题(ill posed problem)或称为反问题(inverse Problem)的研究从20世纪末成为国际上的 ...
稀疏表示 Sparse Representation
稀疏表示_百度百科 https://baike.baidu.com/item/%E7%A8%80%E7%96%8F%E8%A1%A8%E7%A4%BA/16530498 信号稀疏表示是过去近20年来信 ...

随机推荐

Java面试题-多线程
1. java中有几种方法可以实现一个线程? 多线程有两种实现方法,分别是继承Thread类与实现Runnable接口. 这两种方法的区别是,如果你的类已经继承了其它的类,那么你只能选择实现Runna ...
sublime text2卸载和重新安装
很多同学使用 sublime text2 的时候,出现一些奇怪的bug,且重启无法修复. 于是,就会想到卸载 sublime text2 再重新安装. 然而,你会发现,重新安装后,这个bug任然存在, ...
UVa 1572 (拓扑排序) Self-Assembly
题意: 有n种正放形,每种正方形的数量可视为无限多.已知边与边之间的结合规则,而且正方形可以任意旋转和反转,问这n中正方形是否可以拼成无限大的图案. 分析: 首先因为可以旋转和反转,所以可以保证在拼接 ...
android.util.AndroidRuntimeException: requestFeature() must be called before adding content 错误解决方法
Activity全屏,网上的代码如下:protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstance ...
Java [Leetcode 43]Multiply Strings
题目描述: Given two numbers represented as strings, return multiplication of the numbers as a string. No ...
Hibernate4.x之映射关系--多对多
n-n的关联关系分为以下两类: 1.单向n-n关联关系: n-n的关联必须使用连接表与1-n映射类似,必须为set集合元素添加key子元素,指定CATEGORIES_ITEMS表中参照CATEGOR ...
android Bitmap getByteCount和getRowBytes
今天做图像缓存需要计算Bitmap的所占的内存空间,于是研究了下Bitmap关于内存占用的API 1.getRowBytes:Since API Level 1,用于计算位图每一行所占用的内存字节数. ...
POJ3241 Object Clustering 曼哈顿最小生成树
题意:转换一下就是求曼哈顿最小生成树的第n-k条边参考:莫涛大神的论文<平面点曼哈顿最小生成树> /* Problem: 3241 User: 96655 Memory: 920K Ti ...
Can't find file: './mysql/plugin.frm' (errno: 13)[mysql数据目录迁移错位]错误解决
大概需要4个步骤,其中第1步通过service mysql stop停止数据库,第4步通过service mysql start启动数据库. 第2步移动数据文件,不知道是否为Ubuntu智能的原因,移 ...
Mac,WIN下支撑 IPV6的 sftp客户端
transmit 这样的话就可以使用 ipv6了,教育网的优势体现出来了,window下得支撑 ipv6的sftp客户端 Bitvise SSH 和 WINSCP

图像的稀疏表示——ScSPM和LLC的总结

前言

再前言

ScSPM

LLC

References：

图像的稀疏表示——ScSPM和LLC的总结的更多相关文章

随机推荐

热门专题