论文阅读笔记（三）【AAAI2017】：Learning Heterogeneous Dictionary Pair with Feature Projection Matrix for Pedestrian Video Retrieval via Single Query Image

Introduction

（1）IVPR问题：

根据一张图片从视频中识别出行人的方法称为 image to video person re-id（IVPR）

应用：

① 通过嫌犯照片，从视频中识别出嫌犯；

② 通过照片，寻找走失人口.

（2）图片-视频行人匹配问题的描述：

（3）IVPR的难点：

① 图像、视频的特征不同：视频包含视觉外貌特征(visual appearance features)和时空特征(spatial-temporal features)，而图片只包含视觉外貌特征；

② IVPR是一个点到集合的匹配问题(point-to-set)，每一段视频的不同帧或者步行周期都有较大的变化.

（4）Motivation：

现存的行人重识别方法需要两个对象提供同类的特征，然而在IVPR问题中，只有视觉外貌特征能够从两个对象中提取出，而时空特征只能在视频提取，因此无法应用到现存的方法中. 在视频行人重识别中，时空特征和视觉外貌特征是互补的，不可或缺，仅仅使用视觉外貌特征会限制识别性能. 并且现有的算法并不适用于点到集合的匹配问题.

（5）Contribution：

① 首次对图像-视频匹配问题进行研究.

② 提出了一个联合特征投影矩阵和异构字典对学习方法(PHDL)，特征投影矩阵(joint feature projection matrix)使得同一个视频之间的变化降低，异构字典对(heterogeneous dictionary pair)使得异构的图片和视频的特征转换成相同维度的编码；设计了一个点到集合的系数区分度项，确保特征编码有较好的区分度.

③ 设计了一个视频聚集项，来降低视频内部的变化，提高视频的紧凑型.

The Proposed Approach

（1）问题定义：

① 参数及变量定义：

X = {x₁, ..., x_i, ..., x_n}：训练图像特征集，x_i 表示第 i 个行人图片，规格为 p 维（其中 n 为行人数量）；

Y = {Y₁, ..., Y_i, ..., Y_n}：训练视频特征集，Y_i = {y_i,1, ..., y_i,j, ..., y_i,ni} 表示第 i 个行人视频，y_i,j表示第 i 个视频的第 j 个步态周期提取的特征，规格为 q 维（其中 n_i 为第 i 个行人的步态周期数）；

W：学习得到的特征压缩矩阵（feature projection matrix FPM），规格为 q*q₁（其中q₁为压缩后的特征维度）；

D_I：学习得到的图片字典，规格为 p*m（其中 m 为原子数量）；

D_V：学习得到的视频字典，规格为 q₁*m；

A = {a₁, ..., a_i, ..., a_n}：X 通过 D_I 得到的编码系数矩阵(coding coefficient matrix)；

B = {B₁, ..., B_i, ..., B_n}：Y 通过 D_V 得到的编码系数矩阵，其中 B_i = {b_i,1, ..., b_i,j, ... b_i,ni}.

② PHDL方法介绍：（文中使用到了字典学习，相关知识参考【传送门】）

③ 问题定义：

其中的参数和函数：

α、β、γ 是平衡因子(balancing factor)，

d_I,i、d_V,i 是 D_I、D_V 的第 i 个原子.

：图片重构保真度项(image reconstruction fidelity term)，个人理解：衡量原始数据集和字典矩阵编码后的差异，尽量要缩小两者间的差距，使得编码结果与原始数据更贴近.

：视频重构保真项(video reconstruction fidelity term).

：视频聚合项(video congregating term)，理解为所有视频的每个特征与特征均值 m 的距离.

：点到集合编码差异项(point-to-set coefficient discriminant term)，对于匹配成功的 image-video pair 距离更短，对于匹配失败的 image-video pair 距离更长，其中，S 为匹配成功的集合，Q 为匹配失败的集合，η 为平衡因子.

：正则化项(regularization term)，个人的理解是正则化项通常用于防止过拟合.

（2）优化算法：

将目标函数分为三个子问题：编码系数更新(A、B更新)、字典矩阵更新(D_I、D_V更新)、特征投影矩阵更新(W更新).

① 初始化 W、D_I、D_V、A、B：

首先通过下式的优化，初始化W：

【使用特征分解的方法，同论文笔记二中的推导】

再用随机矩阵的方法对字典矩阵进行初始化；

最后对A、B的初始化可以视为岭回归(ridge regression)问题：

分析得出：

（上式为岭回归问题，参考内容【传送门】）

② W、D_I、D_V确定，更新A、B：

采用求导的方式得到结果（其中 C_j,i 的每一列是 a_j）：

推导过程如下( B_i类似)

③ 确定 A、B、W，更新 D_I 和 D_V：

引入变量 S (其中 s_i 表示 S 中的第 i 个原子)：

使用ADMM算法对求解 D_I 进行优化(求解 D_V 类似)：

④ 确定 D_I、D_V、A、B，更新 W：

通过求导得出解：

其中（但我算到的结果不一致）

推导过程：

⑤ 优化算法流程：

（3）结果预测：

待测图片：x

视频库：Z = [Z₁, ..., Z_i, ...,Z_l]，其中 Z_i = [z_i,1, ..., z_i,j, ..., z_i,ni] 表示第 i 个视频的特征集.

行人重识别过程：

① 将图片 x 通过 D_I 转为编码a；

② 将视频集 Z 通过 D_V 编码 G；

③ 计算两者间的距离：，对结果进行排序.

Experimental Results

（1）数据集：

① iLIDS-VID数据集：

该数据集含有300个行人的600个图像序列，每个行人都有来自两个相机拍摄的图像序列.

每个图像序列含有22-192帧，平均还有71帧.

② PRID2011数据集：

Cam-A含有385个行人的图像序列，Cam-B含有749个行人的图像序列.

每个序列含有5-675帧，平均含有84帧（低于20帧的需要被忽略）.

（2）实验设置：

① 对比方法：RDC、KISSME、ISR、XQDA、PSDML、LERM.

② 特征选取：WHOSE、STFV3D.

③ 评估设置：从一个相机的视频序列中随机挑选一帧作为待测图片，从另一个相机的视频中进行识别. 数据集的50%作为训练集，50%作为测试集.

④ 参数设置：对于iLIDS-VID数据集：α = 10, β = 0.8, λ = 0.012, η = 0.12，字典规格120，W的列数460；对于 PRID2011数据集：α = 12, β = 0.7, λ = 0.01, η = 0.14，字典规格180，W的列数380.

（3）实验结果：

Discussion

（1）特征压缩矩阵的效果：

若没有使用特征压缩矩阵 W ，记为 PHDL-W：

（2）字典规格和特征压缩矩阵规格的选择：

根据在iLIDS-VID数据集上的实验结果，最终选定字典大小为120，FPM大小为[400, 600]之间.（PRID2011数据集类似）

（3）参数的选择：

根据在iLIDS-VID数据集上的实验结果，α 选择[6, 16]之间，β 和 η 选择0.8和0.12，λ 选择[0.006, 0.016]之间.（PRID2011数据集类似）

（4）迭代次数的选择：

在实验中，迭代15次基本趋于水平.

论文阅读笔记（三）【AAAI2017】：Learning Heterogeneous Dictionary Pair with Feature Projection Matrix for Pedestrian Video Retrieval via Single Query Image的更多相关文章

论文阅读笔记三十：One pixel attack for fooling deep neural networks（CVPR2017）
论文源址:https://arxiv.org/abs/1710.08864 tensorflow代码: https://github.com/Hyperparticle/one-pixel-attac ...
论文阅读笔记三：R2CNN：Rotational Region CNN for Orientation Robust Scene Text Detection(CVPR2017)
进行文本的检测的学习,开始使用的是ctpn网络,由于ctpn只能检测水平的文字,而对场景图片中倾斜的文本无法进行很好的检测,故将网络换为RRCNN(全称如题).小白一枚,这里就将RRCNN的论文拿来拜 ...
论文阅读笔记三十九：Accurate Single Stage Detector Using Recurrent Rolling Convolution（RRC CVPR2017）
论文源址:https://arxiv.org/abs/1704.05776 开源代码:https://github.com/xiaohaoChen/rrc_detection 摘要大多数目标检测及定 ...
论文阅读笔记三十七：Grid R-CNN（CVPR2018）
论文源址:https://arxiv.org/abs/1811.12030 开源代码:未公开摘要本文提出了目标检测网络Grid R-CNN,其基于网格定位机制实现准确的目标检测.传统方法主要基于回 ...
论文阅读笔记三十六：Mask R-CNN（CVPR2017）
论文源址:https://arxiv.org/pdf/1703.06870.pdf 开源代码:https://github.com/matterport/Mask_RCNN 摘要 Mask R-CNN ...
论文阅读笔记三十二：YOLOv3: An Incremental Improvement
论文源址:https://pjreddie.com/media/files/papers/YOLOv3.pdf 代码:https://github.com/qqwweee/keras-yolo3 摘要 ...
论文阅读笔记三十一：YOLO 9000: Better,Faster,Stronger(CVPR2016)
论文源址:https://arxiv.org/abs/1612.08242 代码:https://github.com/longcw/yolo2-pytorch 摘要本文提出YOLO9000可以检测 ...
论文阅读笔记三十八：Deformable Convolutional Networks（ECCV2017）
论文源址:https://arxiv.org/abs/1703.06211 开源项目:https://github.com/msracver/Deformable-ConvNets 摘要卷积神经网络 ...
论文阅读笔记三十五：R-FCN:Object Detection via Region-based Fully Convolutional Networks（CVPR2016）
论文源址:https://arxiv.org/abs/1605.06409 开源代码:https://github.com/PureDiors/pytorch_RFCN 摘要提出了基于区域的全卷积网 ...

随机推荐

mybatis入门的前期准备
使用步骤如下: 首先创建一个Maven工程,在pom.xml文件中引入mybatis的jar包坐标 <dependencies> <dependency> <groupI ...
Python常用模块sys,os,time,random功能与用法，新手备学。
这篇文章主要介绍了Python常用模块sys,os,time,random功能与用法,结合实例形式分析了Python模块sys,os,time,random功能.原理.相关模块函数.使用技巧与操作注意 ...
WebStorm 2019.3.1 永久破解
PS:动手能力强的来,手残的去淘宝买吧,大概15块钱1年.建议看完后在动手,有一个全局观,浪费不了多少时间一. 下载破解补丁文件链接:https://pan.baidu.com/s/16-rPPH ...
Jean-Pierre Serre访问录
问:是什么使您以数学为职业的? 答:我记得大概是从七.八岁时起喜欢数学的.在中学里, 我常做一些高年级的题目.那时,我寄宿于Nimes,与比我大的孩子住在一起,他们常常欺侮我,为了平抚他们,我就经常帮 ...
Bootstrap 手机屏幕自适应的响应式布局开关
head中添加 <meta name="viewport" content="width=device-width, initial-scale=1, shrink ...
SpringBoot整合NoSql--（一）Redis
简介: Redis是一个开源的使用ANSI C语言编写.遵守BSD协议.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库,并提供多种语言的API.它通常被称为数据结构服务器,因为值(v ...
cf1214E
题意简述:构造一棵包含2*n个节点的树,要求2*i 和 2*i-1之间的距离等于d[i]<=n 1<=i<=n 给出N和d数组,输入对应的边题解:对d数组按照从大到小排序,然后首先 ...
centos7查看启动的进程并杀死
https://www.cnblogs.com/aipiaoborensheng/p/7676364.html ps -a -H kill -9 pid
QQ全量上云，你想了解的技术细节都在这
腾讯的业务体量非常庞大,在2019年,腾讯已拥有超过了100万台服务器,其中,社交业务包括QQ和空间的体量有近20万台服务器,且分布在全国三地. 把QQ这头大象搬到云上并非易事.作为腾讯最庞大.最悠久 ...
Lombok 详解
简介 lombok是一个编译级别的插件,它可以在项目编译的时候生成一些代码.通俗的说,lombok可以通过注解来标示生成getter settter等代码. 引入创建gradle项目 compile ...

论文阅读笔记（三）【AAAI2017】：Learning Heterogeneous Dictionary Pair with Feature Projection Matrix for Pedestrian Video Retrieval via Single Query Image

论文阅读笔记（三）【AAAI2017】：Learning Heterogeneous Dictionary Pair with Feature Projection Matrix for Pedestrian Video Retrieval via Single Query Image的更多相关文章

随机推荐

热门专题