ScSPM

Linear Spatial Pyramid Matching using Sparse Coding for Image Classification (CVPR'09)

稀疏编码系列：

李菲菲 bag of words：现在Computer Vision中的Bag of words来表示图像的特征描述也是很流行的。大体思想是这样的，假设有5类图像，每一类中有10幅图像，这样首先对每一幅图像划分成patch（可以是刚性分割也可以是像SIFT基于关键点检测的），这样，每一个图像就由很多个patch表示，每一个patch用一个特征向量来表示，咱就假设用Sift表示的，一幅图像可能会有成百上千个patch，每一个patch特征向量的维数128。

接下来就要进行构建Bag of words模型了，假设Dictionary词典的Size为100，即有100个词。那么咱们可以用K-means算法对所有的patch进行聚类，k=100，我们知道，等k-means收敛时，我们也得到了每一个cluster最后的质心，那么这100个质心（维数128）就是词典里的100个词了，词典构建完毕。

词典构建完了怎么用呢？是这样的，先初始化一个100个bin的初始值为0的直方图h。每一幅图像不是有很多patch么？我们就再次计算这些patch和和每一个质心的距离，看看每一个patch离哪一个质心最近，那么直方图h中相对应的bin就加1，然后计算完这幅图像所有的patches之后，就得到了一个bin=100的直方图，然后进行归一化，用这个100维的向量来表示这幅图像。对所有图像计算完成之后，就可以进行分类聚类训练预测之类的了。

那么，这里影响效率的一个方面是构建词典时的K-means聚类，我在用的时候遇到了两个问题：1、内存溢出。这是由于一般的K-means函数的输入是待聚类的完整的矩阵，在这里就是所有patches的特征向量f合成的一个大矩阵，由于这个矩阵太大，内存不顶了。我内存为4G。2、效率低。因为需要计算每一个patch和每一个质心的欧拉距离，还有比较大小，那么要是循环下来这个效率是很低的。

参考：第九章三续：SIFT算法的应用--目标识别之Bag-of-words模型

图像分类中的max pooling和average pooling是对特征的什么来操作的，结果是什么？链接：https://www.zhihu.com/question/23437871/answer/44678835

题主问的应该是feature coding之后的那步pooling（bag-of-words framework下），而上面回答的那个pooling用在CNN中（CNN和BoW是两套系统），两个不太一样。CNN的那个pooling主要目的是降维，也是CNN精髓所在。但是我们特征编码之后做pooling，是因为不做就进行不下去了。

这个故事还要从feature coding讲起。最初编码的方式比较耿直（VQ，矢量量化），这样计算的结果本身是一个统计直方图，也就是向量的，因此不需要做什么处理，直接送到SVM里面就完了。但是由于特征本身语义不高，这样的编码方式会造成比较大的误差。2009年，图像方面的稀疏编码被提了出来（Jianchao Yang, Kai Yu, Yihong Gong, and Thomas Huang. Linear spatial pyramid matching using sparse coding for image classification. CVPR2009.）掀起了一股特征编码的潮流（集中在09-10这个阶段）。稀疏编码减小了量化误差，效果也十分显著（14%的正确率提升），但是经过稀疏编码得到的结果是一个矩阵而不是向量（具体可以看paper），矩阵的两个维度分别是word和location，这个矩阵是无法直接拿来分类的，所以需要对它做pooling变成一个向量，这就是题主所说的pooling。

刚开始的pooling比较拍脑袋，sum就是对每一列求和，max就是求最大，因为矩阵里面的数值强度表现了这个词本身的响应，所以对响应不同的操作会得到不同的结果。上面的那篇文章也比较了一些pooling的效果，但是没有探讨哪种比较好，或者哪种为什么好。

后来有一些工作开始思考什么样的pooling比较好以及为什么好。比如Y. Boureau, J. Ponce, Y. LeCun A Theoretical Analysis of Feature Pooling in Visual Recognition, ICML, 2010，P. Koniusz, F. Yan, K. Mikolajczyk Comparison of Mid-Level Feature Coding Approaches And Pooling Strategies in Visual Concept Detection. CVIU, 117(5):479-492, 2013。 CVIU的这篇文章提出了AxMin的方法，应该是比较新的（是不是最新不太确定）。也有尝试探讨什么样的pooling好以及为什么好的：Protected Pooling Method Of Sparse Coding In Visual Classi cation，ICCVG，2014（会很水而且写得非常naive，只供参考）。不过pooling本身对分类系统的影响不大，2%以内差不多。

总的来说pooling确实起到了整合特征的作用，因为不同的方法得到的结果有些差别，不过我理解主要动机还是“不池化就没法继续了”这种感觉。

数据库：Caltech 101

ScSPM的更多相关文章

图像的稀疏表示——ScSPM和LLC的总结
前言上一篇提到了SPM.这篇博客打算把ScSPM和LLC一起总结了.ScSPM和LLC其实都是对SPM的改进.这些技术,都是对特征的描述.它们既没有创造出新的特征(都是提取SIFT,HOG, RGB ...
在线场景感知：图像稀疏表示—ScSPM和LLC总结(以及lasso族、岭回归)
前言: 场景感知其实不分三维场景和二维场景,可以使用通用的方法,不同之处在于数据的形式,以及导致前期特征提取及后期在线场景分割过程.场景感知即是场景语义分析问题,即分析场景中物体的特征组合与相应场景的 ...
ScSPM & LLC
为啥会有SPM→ScSPM呢?原因之一是为了寻找better coding + better pooling的方式提高性能,原因之二就是提高速度.如何提高速度?这里的速度,不是Coding+Pooli ...
理解sparse coding
理解sparse coding 稀疏编码系列: (一)----Spatial Pyramid 小结 (二)----图像的稀疏表示——ScSPM和LLC的总结 (三)----理解sparse codin ...
Spatial Pyramid Matching 小结
Spatial Pyramid Matching 小结稀疏编码系列: (一)----Spatial Pyramid 小结 (二)----图像的稀疏表示——ScSPM和LLC的总结 (三)----理解 ...
structured sparsity model
Data representation往往基于如下最小化问题: (1) 其中X是观测到的数据的特征矩阵,D是字典,Z是字典上的描述.约束项和使得字典dictionary和描述code具 ...
CV code references
转:http://www.sigvc.org/bbs/thread-72-1-1.html 一.特征提取Feature Extraction: SIFT [1] [Demo program][SI ...
Coursera机器学习+deeplearning.ai+斯坦福CS231n
日志 20170410 Coursera机器学习 2017.11.28 update deeplearning 台大的机器学习课程:台湾大学林轩田和李宏毅机器学习课程 Coursera机器学习 Wee ...
2016CVPR论文集
http://www.cv-foundation.org/openaccess/CVPR2016.py ORAL SESSION Image Captioning and Question Answe ...

随机推荐

Linux基础学习-使用PXE+Kickstart无人值守安装服务
无人值守安装系统 PXE(Preboot eXecute Environment,预启动执行环境)是由Intel公司开发的技术,可以让计算机通过网络来启动操作系统(前提是计算机上安装的网卡支持PXE技 ...
Ajax跨域问题---jsonp
跨域:跨域名一个域名下的文件去请求了和他不一样的域名下资源文件,那么就会产生跨域请求解决跨域问题办法: 1.将要访问的外部资源存到本域名下的一个php文件 2.用flash方式 3.JSONP: ...
[php] 高级教程
include 和 require 语句用于在执行流中插入写在其他文件中的有用的代码. include 和 require 除了处理错误的方式不同之外,在其他方面都是相同的: require 生成一个 ...
day03变量补充和数据类型
1.变量的内存管理机制引用计数:存放值的内存地址绑定的变量个数垃圾:引用计数为0的内存地址引用计数增加: age = 18 x = age 引用计数减少: ①age = 19 ②del x 值的 ...
剑指Offer（书）：调整数组顺序使奇数位于偶数前面
题目:输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,所有的偶数位于数组的后半部分,并保证奇数和奇数,偶数和偶数之间的相对位置不变. public void ...
I2C驱动框架(五)
参考:I2C子系统之 adapter driver注册——I2C_dev_init() i2c的操作在内核中是当做字符设备来操作的,相关初始化在由i2c_dev_init函数来初始化. static ...
php expat+DOM+SimpleXML XML读取
XML 文件将在我们的例子中使用下面的 XML 文件: <?xml version="1.0" encoding="ISO-8859-1"?> & ...
js实现一个简单的响应式双向数据绑定
一,基本原理我们这里使用了对象中的一个特殊属性:访问器属性,这个属性不能在对象中设置,而是必须通过defineProperty()方法单独定义. 我们首先定义一个函数: var obj = { }; ...
NYOJ 232 How to eat more Banana
How to eat more Banana 时间限制:1000 ms | 内存限制:65535 KB 难度:4 描述 A group of researchers are designing ...
[uiautomator篇] 获取当前页面的方法
Uiautomator 在2.0之前的版本里就提供了getCurrentActivity()的方法,但返回内容不正确:2.0 版本今天尝试了下,还是返回有问题的: 有点没描述清楚啊,是在uiautom ...

ScSPM

Linear Spatial Pyramid Matching using Sparse Coding for Image Classification (CVPR'09)

ScSPM的更多相关文章

随机推荐

热门专题