论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification

Introduction

（1）Motivation：

① 现实场景中，给所有视频进行标记是一项繁琐和高成本的工作，而且随着监控相机的记录，视频信息会快速增多，因此需要采用半监督学习的方式，只对一部分的视频进行标记.

② 不同的相机有着不同的拍摄条件（如设备质量、图片尺寸等等），不同设备间的差异影响匹配的性能.

（2）Contribution：

① 提出一个半监督视频行人重识别方法(semi-supervised video-based person re-id approach).

② 设计了一个半监督字典学习模型(semi-supervised cross-view projection-based dictionary learning, SCPDL)，学习特征投影矩阵(降低视频内部的变化)和字典矩阵(降低视频之间的变化).

③ 采用iLIS-VID和PRID2011数据集验证方法.

The proposed approach

（1）问题定义：

X = [X_L, X_U]：相机1中的视频，

Y = [Y_L, Y_U]：相机2中的视频，

其中 X_L(p*n1)、Y_L(p*n3) 为标记的训练视频，X_U(p*n₂)、Y_U(p*n₄) 为未标记的训练视频，n₁、n₂、n₃、n₄ 为视频中包含的样本数，p 为样本的维数.

P₁(p*q)、P₂(p*q)：相机1和相机2的特征投影矩阵，

其中 q 为投影特征的维数.

D₁(q*m)、D₂(q*m)：相机1和相机2的字典矩阵，

其中 m 为字典的原子数量.

A_L、A_U、B_L、B_U：X_L、X_U、Y_L、Y_U 经过字典 D₁、D₂后的编码（每个视频的特征向量转为了一个编码矩阵，如 A_Lⁱ）.

问题定义如下：

其中 α、β、λ 为平衡因子，d_1,k (d_2,k) 定义为 D₁(D₂) 的第 k 个原子.

具体如下：

f(X, Y, D₁, P₁, D₂, P₂) 为学习矩阵的保真度项(fidelity term)：

g(X, Y, P₁, P₂) 为视频聚合项(video congregating term)：

其中 N_x 和 N_y 分别为 X 和 Y 中行人视频的数量，n^x_i 和 n^y_i 分别为 X 和 Y 中第 i 个视频的样本数量，m^x_i 和 n^y_i 为 X 和 Y 中第 i 个视频所有样本的中心：

d(A_L, B_L) 为视频区分度项(video discriminant term)，希望的结果是匹配项距离更小，不匹配项距离更大：

其中 γ 为平衡因子，S 是匹配成功的视频对，D 是不匹配的视频对，距离计算公式：

r(P₁, P₂, A_L, B_L, A_U, B_U) 为正则化项(regularization term)：

（2）方法概要：

（3）优化算法：

① 初始化：

通过优化下面的两个公式，对投影矩阵 P₁ 和 P₂ 进行初始化，并通过特征分解的方式得到解(特征分解推导参考：【传送门】)：

字典矩阵 D₁ 和 D₂ 采用随机生成的方法.

通过优化下面的四个公式，对 A_L、A_U、B_L、B_U 进行初始化，通过岭回归的方法进行求解（岭回归参考：【传送门】）：

求解结果：

② 固定D₁、D₂、P₁、P₂，更新字典编码 A_L、B_L、A_U、B_U：

求解过程为对每一个视频 A_Lⁱ 依次求解，先对 A_L 进行求解（B_L 类似），对下式进行求导得到解：

同理，对 A_U、B_U 进行更新.

③ 固定 A_L、B_L、A_U、B_U、D₁、D₂，更新 P₁、P₂：

通过求导得出解：

其中：

④ 固定 A_L、B_L、A_U、B_U、P₁、P₂，更新 D₁、D₂：

使用ADMM算法进行求解：

引入变量 S：

先对 D₁ 进行求解（D₂ 同理可得）：

⑤ 算法总结：

（4）识别过程：

通过上述内容，已经学习到了投影矩阵(P₁, P₂)、字典矩阵(D₁, D₂).

从相机1中得到待测视频的特征为 Xi，从相机2中得到视频特征库 Z = {Z₁, ..., Z_j, ..., Z_n}.

识别过程：

① 计算待测视频的字典编码 A_i：

② 计算视频库所有视频的字典编码 B_j (j = 1, ...,n)：

③ 计算 A_i 和 B_j (j = 1, ..., n) 的距离，并挑选出距离最近的匹配视频.

Experimental Results

（1）实验设置：

① 数据集：iLIDS-VID、PRID2011

参数(α、β等)训练阶段：将标记后的数据集划分，采用3折交叉验证法(分成3份，前2份作为训练集，第3份作为测试集，循环3次取平均测试结果)

评估训练阶段：总体数据集划分为一半标记的数据集，一半未标记的数据集.

② 对比方法：DVR、Salience+DVR、MS-Colour&LBP+DVR、STFV3D、STFV3D+KISSME、TDL、SI²DL、RCN.

③ 参数设置：对于参数 α、β、γ、λ、q、m，采用学习曲线选取最佳的参数.

最终的设置为：对于iLIDS-VID， α = 6、β = 3、γ = 0.05、λ = 0.03、q = 300、m = 220；对于PRID2011，α = 5、β = 4、γ = 0.06、λ = 0.05、q = 260、m = 240.

（2）实验结果：

① 在iLIDS-VID上的结果：

② 在PRID2011上的结果：

在rank-1阶段SCPDL方法比SI²DL差的可能原因： SCPDL是半监督学习的方法，只能使用一半的带标签数据进行训练，当相同数量的带标签数据时，性能将会更好.

论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification的更多相关文章

论文阅读笔记六：FCN：Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn ...
论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要本文研究了利用深度神经网络 ...
论文阅读笔记六十六:Wide Activation for Efficient and Accurate Image Super-Resolution(CVPR2018)
论文原址:https://arxiv.org/abs/1808.08718 代码:https://github.com/JiahuiYu/wdsr_ntire2018 摘要本文证明在SISR中在Re ...
论文阅读笔记六十五:Enhanced Deep Residual Networks for Single Image Super-Resolution(CVPR2017)
论文原址:https://arxiv.org/abs/1707.02921 代码: https://github.com/LimBee/NTIRE2017 摘要以DNN进行超分辨的研究比较流行,其中 ...
论文阅读笔记六十三：DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling（CVPR2017）
论文原址:https://arxiv.org/abs/1703.10295 github:https://github.com/lachlants/denet 摘要本文重新定义了目标检测,将其定义为 ...
论文阅读笔记六十二:RePr: Improved Training of Convolutional Filters(CVPR2019)
论文原址:https://arxiv.org/abs/1811.07275 摘要一个训练好的网络模型由于其模型捕捉的特征中存在大量的重叠,可以在不过多的降低其性能的条件下进行压缩剪枝.一些skip/ ...
论文阅读笔记六十一:Selective Kernel Networks(SKNet CVPR2019)
论文原址:https://arxiv.org/pdf/1903.06586.pdf github: https://github.com/implus/SKNet 摘要在标准的卷积网络中,每层网络中 ...
论文阅读笔记六十:Squeeze-and-Excitation Networks(SENet CVPR2017)
论文原址:https://arxiv.org/abs/1709.01507 github:https://github.com/hujie-frank/SENet 摘要卷积网络的关键构件是卷积操作, ...
论文阅读笔记（五）【CVPR2012】:Large Scale Metric Learning from Equivalence Constraints
由于在读文献期间多次遇见KISSME,都引自这篇CVPR,所以详细学习一下. Introduction 度量学习在机器学习领域有很大作用,其中一类是马氏度量学习(Mahalanobis metric ...
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构解决问题主要贡献算法原理实验结果参考文献 (1 ...

随机推荐

MySQL优化---主从复制
主机所有写的数据都会生成二进制SQL日志执行文件,从机只需要将SQL日志执行文件获取到,然后进行数据同步即可一.MySQL环境搭建(一主一从相同操作) MySQL-master:192.168.33 ...
今天第一天开通博客，随笔总结一下resultType（属性）和resultMap，collection和association，Statement和PreparedStatement各自的区别
1.resultType(属性)和resultMap(标签引用)的区别? resultType不支持自定义返回结果,会将查询到的结果通过到type中java对象的同名的属性,对象中的属性名必须和数据库 ...
linux 统计文件夹下文件，文件夹，所有个数
统计某文件夹下文件的个数 ls -l |grep "^-"|wc -l 统计某文件夹下目录的个数 ls -l |grep "^d"|wc -l 统计文件夹下文件 ...
Mysql 在线新建或重做主从
1. 前言以前给 Mysql 数据库做主从,都是在主服务器停服的情况下做的.但是最近有一个项目,已经上线几天了,数据库也单服务器跑了几天,才确定要给 Mysql 服务器做一个主从架构,简单的一主一从 ...
php oci 和 pdo_oci 安装
安装非常复杂,必须记录 CentOS服务器上已有相关环境:apache.php5 需要安装:1.oracle客户端.2.oci8扩展.3.pdo_oci扩展. 一. 准备文件 1) oracle客户端 ...
JavaScript中，数组和对象的遍历方法总结
循环遍历是写程序很频繁的操作,JavaScript 提供了很多方法来实现. 这篇文章将分别总结数组和对象的遍历方法,新手可以通过本文串联起学过的知识. 数组遍历方法一:for 循环 for 循环是使 ...
IO流（字节流，字符流）
一,概述 IO流(input output):用来处理设备之间的数据. Java对数据的操作是通过流的对象. Java用于操作流的对象都在IO包中. 流是一组有顺序的,有起点和终点的字节集合,是对数据 ...
Linux下通过二进制方式安装mysql5.7版本和系统优化
本文主要介绍MySQL二进制软件包的安装/启动/关闭过程. 也许有人要问为什么要选择二进制的安装方式呢? 其实答案很简单,官方版本中已经把所有功能都配置好了,我们可以很方便地拿来使用. 官方MySQL ...
R12客户表结构分析
客户表/联系人/PARTY关联 HZ_PARTIES 客户账户表 HZ_CUST_ACCOUNTS 例子: select hp.party_number --客户注册标识 ...
mysql 的root 用户无法授权，navicat 远程授权提示1044解决方案
先看解决方案 #------------mysql root 用户无法赋权问题解决 -------- ,登录 mysql -u root -p ,use mysql; 选择mysql数据库 ,执行以下 ...

论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification

论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification的更多相关文章

随机推荐

热门专题