图像检索——VLAD

今天主要回顾一下关于图像检索中VLAD（Vector of Aggragate Locally Descriptor）算法，免得时间一长都忘记了。关于源码有时间就整理整理。

一、简介

　　虽然现在深度学习已经基本统一了图像识别与分类这个江湖，但是我觉得在某些小型数据库上或者小型的算法上常规的如BoW，FV，VLAD，T-Embedding等还是有一定用处的，如果专门做图像检索的不知道这些常规算法也免得有点贻笑大方了。

　　如上所说的这些算法都大同小异，一般都是基于局部特征（如SIFT，SURF）等进行特征编码获得一个关于图像的feature，最后计算feature之间的距离，即使是CNN也是这个过程。下面主要就是介绍一下关于VLAD算法，它主要是得优点就是相比FV计算量较小，相比BoW码书规模很小，并且检索精度较高。

二、VLAD算法

第一步自然是提取局部特征，有了OpenCV这一步就仅仅是函数调用的问题了：
```
SurfFeatureDetector detector;

SurfDescriptorExtractor extractor;

detector.detect( image_0,  keypoints );

extractor.compute( image_0,  keypoints, descriptors );
```
　　如果对特征有什么要求也可以根据OpenCV的源码或者网上的源码进行修改，最终的结果就是提取到了一幅图像的局部特征（还有关于局部特征参数的控制）；
第二步本应是量化的过程，但是在量化之前需要事先训练一本码书，而码书同BoW一样是用K-means算法训练得到的，同样OpenCV里面也集成了这个算法，所以这个过程也再简单不过了：
```
	kmeans(descriptors, numClusters, labels,

               TermCriteria( CV_TERMCRIT_EPS+CV_TERMCRIT_ITER, 10, 0.01 ),

               3, KMEANS_PP_CENTERS, centers);
```
　　需要做的就是定义一些参数，如果自己写的话就不清楚了。另外码书的大小从64-256甚至更大不等，理论上码书越大检索精度越高。
第三步就是量化每一幅图像的特征了，其实如果数据库较小，可以直接使用全部图像的特征作训练，然后Kmeans函数中的labels中存储的就是量化的结果：即每一个特征距离那一个聚类中心最近。但是通常训练和量化是分开的，在VLAD算法中使用的是KDTree算法，KDTree算法是一种快速检索算法，OpenCV里同样集成了KDTree算法：
```
const int k=1, Emax=INT_MAX;
KDTree T(centers,false);

T.findNearest(descriptors_row, k, Emax, idx_t, noArray(), noArray());
```
　　通过KDTree下的findNearest函数找到与之最近的聚类中心，需要注意的是输入的STL的vector类型，返回的是centers的索引值；
量化结束之后就是计算特征和中心的残差，并对每一幅图像落在同一个聚类中心上的残差进行累加求和，并进行归一化处理，最后每一个聚类中心上都会得到一个残差的累加和，进行归一化时需要注意正负号的问题（针对不同的特征）。假设有k个聚类中心，则每一个聚类中心上都有一个128维（SIFT）残差累加和向量；
把这k个残差累加和串联起来，获得一个超长向量，向量的长度为k*d（d=128），然后对这个超长矢量做一个power normolization处理可以稍微提升检索精度，然后对这个超长矢量再做一次归一化，现在这个超长矢量就可以保存起来了。
假设对N幅图像都进行了上面的编码处理之后就会得到N个超长矢量，为了加快距离计算的速度通常需要进行PCA降维处理，关于PCA降维的理论同KDTree一样都很成熟，OpenCV也有集成，没有时间自己写就可以调用了：
```
PCA pca( vlad, noArray(), CV_PCA_DATA_AS_ROW, 256 );
pca.project(vlad,vlad_tt);
```
　　输入训练矩阵，定义按照行或列进行降维，和降维之后的维度，经过训练之后就可以进行投影处理了，也可以直接调用特征向量进行矩阵乘法运算。这里有一点就是PCA的过程是比较费时的，进行查询的时候由于同样需要进行降维处理，所以可以直接保存投影矩阵（特征值矩阵），也可以把特征向量、特征值、均值都保存下来然后恢复出训练的pca，然后进行pca.project进行投影处理；
如果不考虑速度或者数据库规模不是很大时，就可以直接使用降维后的图像表达矢量进行距离计算了，常用的距离就是欧式距离和余弦距离，这里使用余弦距离速度更快。当然进行距离计算的基础就是已经设计好了训练过程和查询过程。

三、总结

　　可以看到，整个VLAD算法结合OpenCV实现起来还是非常简单的，并且小型数据库上的检索效果还可以，但是当数据库规模很大时只使用这一种检索算法检索效果会出现不可避免的下降。另外在作者的原文中，针对百万甚至千万级的数据库时单单使用PCA降维加速距离的计算仍然是不够的，所以还会使用称之为积量化或乘积量化（Product Quantization）的检索算法进行加速，这个也是一个很有意思的算法，以后有机会再介绍它。

图像检索——VLAD的更多相关文章

图像检索(4):IF-IDF,RootSift,VLAD
TF-IDF RootSift VLAD TF-IDF TF-IDF是一种用于信息检索的常用加权技术,在文本检索中,用以评估词语对于一个文件数据库中的其中一份文件的重要程度.词语的重要性随着它在文件中 ...
图像检索(6)：局部敏感哈希索引(LSH)
图像检索中,对一幅图像编码后的向量的维度是很高.以VLAD为例,基于SIFT特征点,设视觉词汇表的大小为256,那么一幅图像编码后的VLAD向量的长度为$128 \times 256 = 32768 ...
图像检索(5):基于OpenCV实现小型的图像数据库检索
本文对前面的几篇文章进行个总结,实现一个小型的图像检索应用. 一个小型的图像检索应用可以分为两部分: train,构建图像集的特征数据库. retrieval,检索,给定图像,从图像库中返回最类似的图 ...
图像检索(3):BoW实现
在上一篇文章中图像检索(2):均值聚类-构建BoF中,简略的介绍了基于sift特征点的BoW模型的构建,以及基于轻量级开源库vlfeat的一个简单实现. 本文重新梳理了一下BoW模型,并给出不同的实现 ...
图像检索(2):均值聚类-构建BoF
在图像检索时,通常首先提取图像的局部特征,这些局部特征通常有很高的维度(例如,sift是128维),有很多的冗余信息,直接利用局部特征进行检索,效率和准确度上都不是很好.这就需要重新对提取到的局部特征 ...
图像检索(1): 再论SIFT-基于vlfeat实现
概述基于内容的图像检索技术是采用某种算法来提取图像中的特征,并将特征存储起来,组成图像特征数据库.当需要检索图像时,采用相同的特征提取技术提取出待检索图像的特征,并根据某种相似性准则计算得到特征数据 ...
哈希学习（2）—— Hashing图像检索资源
CVPR14 图像检索papers——图像检索 1. Triangulation embedding and democratic aggregation for imagesearch (Oral ...
CVPR14 图像检索papers
CVPR14年关于图像检索方面的papers,汇总成一个list,方便阅读. 图像检索 Triangulation embedding and democratic aggregation for i ...
Bag of Features (BOF)图像检索算法
1.首先.我们用surf算法生成图像库中每幅图的特征点及描写叙述符. 2.再用k-means算法对图像库中的特征点进行训练,生成类心. 3.生成每幅图像的BOF.详细方法为:推断图像的每一个特征点与哪 ...

随机推荐

Django3.0 前瞻支持异步通信
最近两年,Django的版本号提升得特别快,2.0还没有多久,很快就要到3.0了. 让我们先看看官方的路线图和时间表: 版本号发布日期停止更新日期停止维护日期 3.0 2019-12 2020- ...
Java内存中的常量池
1,java内存模型简介 <深入理解java虚拟机>里将java内存分为如下五个模块: 堆-堆是所有线程共享的,主要用来存储对象. 其中,堆可分为:新生代和老年代两块区域.使用NewRat ...
sql server 2008清除日志
先改成简单模式,再清除日志,再改回原来模式 USE [oms20190322]GOALTER DATABASE oms20190322 SET RECOVERY SIMPLE WITH NO_WAIT ...
如何使用numpy实现一个全连接神经网络？（上）
全连接神经网络的概念我就不介绍了,对这个不是很了解的朋友,可以移步其他博主的关于神经网络的文章,这里只介绍我使用基本工具实现全连接神经网络的方法. 所用工具: numpy == 1.16.4 matp ...
QOS限速
XX涉及的QOS限速主要有两种: 第一种是针对一个端口下双向IP互访: 第二种是针对多个端口下双向IP互访:(聚合car) 聚合car:是指能够对多个业务使用同一个car进行流量监控,即如果多个端口应 ...
PELT算法
参考:http://www.wowotech.net/process_management/PELT.html 本文是对https://lwn.net/Articles/531853/的翻译 mark ...
CentOS 7 firewalld详解，添加删除策略
一.CentOS7中firewall防火墙修改防火墙配置文件之前,需要对之前防火墙[/etc/firewalld/zones/public.xml]做好备份重启防火墙后,需要确认防火墙状态和防火墙 ...
【CF933E】A Preponderant Reunion（动态规划）
[CF933E]A Preponderant Reunion(动态规划) 题面 CF 洛谷题解直接做很不好搞,我们把条件放宽,我们每次可以选择两个相邻的非零数让他们减少任意值,甚至可以减成负数(虽 ...
java.lang.ClassNotFoundException: XXX (no security manager: RMI class loader disabled)
在搞RMI远程发布,consumer去获取rmi远程服务的代理对象的时候出现了如下的错误问题发现: 由于我发布的对象的包路径和获取的对象的包路径不一致,导致了这样的问题解决方案: 包路径改为一致就 ...
webpack+vue路由
只写路由部分的相关内容需引入路由包 import Vue from 'vue' // 1. 导入 vue-router 包 import VueRouter from 'vue-router' // ...

图像检索——VLAD

图像检索——VLAD的更多相关文章

随机推荐

热门专题