论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification

Introduction

（1）Motivation：

① 现实场景中，给所有视频进行标记是一项繁琐和高成本的工作，而且随着监控相机的记录，视频信息会快速增多，因此需要采用半监督学习的方式，只对一部分的视频进行标记.

② 不同的相机有着不同的拍摄条件（如设备质量、图片尺寸等等），不同设备间的差异影响匹配的性能.

（2）Contribution：

① 提出一个半监督视频行人重识别方法(semi-supervised video-based person re-id approach).

② 设计了一个半监督字典学习模型(semi-supervised cross-view projection-based dictionary learning, SCPDL)，学习特征投影矩阵(降低视频内部的变化)和字典矩阵(降低视频之间的变化).

③ 采用iLIS-VID和PRID2011数据集验证方法.

The proposed approach

（1）问题定义：

X = [X_L, X_U]：相机1中的视频，

Y = [Y_L, Y_U]：相机2中的视频，

其中 X_L(p*n1)、Y_L(p*n3) 为标记的训练视频，X_U(p*n₂)、Y_U(p*n₄) 为未标记的训练视频，n₁、n₂、n₃、n₄ 为视频中包含的样本数，p 为样本的维数.

P₁(p*q)、P₂(p*q)：相机1和相机2的特征投影矩阵，

其中 q 为投影特征的维数.

D₁(q*m)、D₂(q*m)：相机1和相机2的字典矩阵，

其中 m 为字典的原子数量.

A_L、A_U、B_L、B_U：X_L、X_U、Y_L、Y_U 经过字典 D₁、D₂后的编码（每个视频的特征向量转为了一个编码矩阵，如 A_Lⁱ）.

问题定义如下：

其中 α、β、λ 为平衡因子，d_1,k (d_2,k) 定义为 D₁(D₂) 的第 k 个原子.

具体如下：

f(X, Y, D₁, P₁, D₂, P₂) 为学习矩阵的保真度项(fidelity term)：

g(X, Y, P₁, P₂) 为视频聚合项(video congregating term)：

其中 N_x 和 N_y 分别为 X 和 Y 中行人视频的数量，n^x_i 和 n^y_i 分别为 X 和 Y 中第 i 个视频的样本数量，m^x_i 和 n^y_i 为 X 和 Y 中第 i 个视频所有样本的中心：

d(A_L, B_L) 为视频区分度项(video discriminant term)，希望的结果是匹配项距离更小，不匹配项距离更大：

其中 γ 为平衡因子，S 是匹配成功的视频对，D 是不匹配的视频对，距离计算公式：

r(P₁, P₂, A_L, B_L, A_U, B_U) 为正则化项(regularization term)：

（2）方法概要：

（3）优化算法：

① 初始化：

通过优化下面的两个公式，对投影矩阵 P₁ 和 P₂ 进行初始化，并通过特征分解的方式得到解(特征分解推导参考：【传送门】)：

字典矩阵 D₁ 和 D₂ 采用随机生成的方法.

通过优化下面的四个公式，对 A_L、A_U、B_L、B_U 进行初始化，通过岭回归的方法进行求解（岭回归参考：【传送门】）：

求解结果：

② 固定D₁、D₂、P₁、P₂，更新字典编码 A_L、B_L、A_U、B_U：

求解过程为对每一个视频 A_Lⁱ 依次求解，先对 A_L 进行求解（B_L 类似），对下式进行求导得到解：

同理，对 A_U、B_U 进行更新.

③ 固定 A_L、B_L、A_U、B_U、D₁、D₂，更新 P₁、P₂：

通过求导得出解：

其中：

④ 固定 A_L、B_L、A_U、B_U、P₁、P₂，更新 D₁、D₂：

使用ADMM算法进行求解：

引入变量 S：

先对 D₁ 进行求解（D₂ 同理可得）：

⑤ 算法总结：

（4）识别过程：

通过上述内容，已经学习到了投影矩阵(P₁, P₂)、字典矩阵(D₁, D₂).

从相机1中得到待测视频的特征为 Xi，从相机2中得到视频特征库 Z = {Z₁, ..., Z_j, ..., Z_n}.

识别过程：

① 计算待测视频的字典编码 A_i：

② 计算视频库所有视频的字典编码 B_j (j = 1, ...,n)：

③ 计算 A_i 和 B_j (j = 1, ..., n) 的距离，并挑选出距离最近的匹配视频.

Experimental Results

（1）实验设置：

① 数据集：iLIDS-VID、PRID2011

参数(α、β等)训练阶段：将标记后的数据集划分，采用3折交叉验证法(分成3份，前2份作为训练集，第3份作为测试集，循环3次取平均测试结果)

评估训练阶段：总体数据集划分为一半标记的数据集，一半未标记的数据集.

② 对比方法：DVR、Salience+DVR、MS-Colour&LBP+DVR、STFV3D、STFV3D+KISSME、TDL、SI²DL、RCN.

③ 参数设置：对于参数 α、β、γ、λ、q、m，采用学习曲线选取最佳的参数.

最终的设置为：对于iLIDS-VID， α = 6、β = 3、γ = 0.05、λ = 0.03、q = 300、m = 220；对于PRID2011，α = 5、β = 4、γ = 0.06、λ = 0.05、q = 260、m = 240.

（2）实验结果：

① 在iLIDS-VID上的结果：

② 在PRID2011上的结果：

在rank-1阶段SCPDL方法比SI²DL差的可能原因： SCPDL是半监督学习的方法，只能使用一半的带标签数据进行训练，当相同数量的带标签数据时，性能将会更好.

论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification的更多相关文章

论文阅读笔记六：FCN：Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn ...
论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要本文研究了利用深度神经网络 ...
论文阅读笔记六十六:Wide Activation for Efficient and Accurate Image Super-Resolution(CVPR2018)
论文原址:https://arxiv.org/abs/1808.08718 代码:https://github.com/JiahuiYu/wdsr_ntire2018 摘要本文证明在SISR中在Re ...
论文阅读笔记六十五:Enhanced Deep Residual Networks for Single Image Super-Resolution(CVPR2017)
论文原址:https://arxiv.org/abs/1707.02921 代码: https://github.com/LimBee/NTIRE2017 摘要以DNN进行超分辨的研究比较流行,其中 ...
论文阅读笔记六十三：DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling（CVPR2017）
论文原址:https://arxiv.org/abs/1703.10295 github:https://github.com/lachlants/denet 摘要本文重新定义了目标检测,将其定义为 ...
论文阅读笔记六十二:RePr: Improved Training of Convolutional Filters(CVPR2019)
论文原址:https://arxiv.org/abs/1811.07275 摘要一个训练好的网络模型由于其模型捕捉的特征中存在大量的重叠,可以在不过多的降低其性能的条件下进行压缩剪枝.一些skip/ ...
论文阅读笔记六十一:Selective Kernel Networks(SKNet CVPR2019)
论文原址:https://arxiv.org/pdf/1903.06586.pdf github: https://github.com/implus/SKNet 摘要在标准的卷积网络中,每层网络中 ...
论文阅读笔记六十:Squeeze-and-Excitation Networks(SENet CVPR2017)
论文原址:https://arxiv.org/abs/1709.01507 github:https://github.com/hujie-frank/SENet 摘要卷积网络的关键构件是卷积操作, ...
论文阅读笔记（五）【CVPR2012】:Large Scale Metric Learning from Equivalence Constraints
由于在读文献期间多次遇见KISSME,都引自这篇CVPR,所以详细学习一下. Introduction 度量学习在机器学习领域有很大作用,其中一类是马氏度量学习(Mahalanobis metric ...
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion
[论文阅读笔记] Unsupervised Attributed Network Embedding via Cross Fusion 本文结构解决问题主要贡献算法原理实验结果参考文献 (1 ...

随机推荐

css 关于自适应页面
//不能使用绝对宽度的布局不能使用具有绝对宽度的元素 media_type 设备类型说明 all 所有设备 aural 听觉设备 braille 点字触觉设备 handled 便携设备,如手机.平板 ...
【转】关于apt源配置的问题
涉及的基本配置文件: apt核心配置文件集中在 /etc/apt 其中,管理软件来源的配置文件如下 sources.list // 主要软件源 so ...
xmppmini 项目详解：一步一步从原理跟我学实用 xmpp 技术开发 2.登录的实现
第二章登录的实现金庸<倚天屠龙记> 张三丰缓缓摇头,说道:“少林派累积千年,方得达成这等绝技,决非一蹴而至,就算是绝顶聪明之人,也无法自创.”他顿了一顿,又道:“我当年在少林寺中住过,只 ...
vue.extend 拓展
https://www.w3cplus.com/vue/vue-extend.html https://jspang.com/post/vue2-2.html https://blog.csdn.ne ...
sublime text3 安装详解+前端插件
1,下载sublime 3,地址:http://www.sublimetext.com/ 2,注册码:(在网上找的,感谢前辈)打开sublime3, help----add license---复制下 ...
C#设计模式学习笔记：(21)访问者模式
本笔记摘抄自:https://www.cnblogs.com/PatrickLiu/p/8135083.html,记录一下学习过程以备后续查用. 一.引言今天我们要讲行为型设计模式的第九个模式--访 ...
JAVA 增删改查接口命名规范(dao层与 service 层
开发时,有很多规范,这里写的是命名规范. Dao 接口命名 insert batchInsert selectOne selectById count selectList update dele ...
Elasticsearch编程操作
1.创建工程导入依赖 <dependency> <groupId>org.elasticsearch</groupId> <artifactId>ela ...
iMacros 入门教程-基础函数介绍（2）
imacros 的 pos 参数是什么意思 position的缩写,如果有 2 个以上的元素共用完全相同的属性(比方说同一个小区的同一栋楼),这个 POS 的参数可以借由不同位置来帮助明确定位(也就是 ...
想在don‘t starve中活的更久？那饥荒海难攻略你怎么能不知道！
饥荒海难mac版是一款非常好玩的烧脑游戏.玩家将扮演一个勇敢的绅士科学家威尔逊,被一个恶魔困住并送到一个神秘的荒野世界,玩家必须利用异世界中的自然资源让自己存活下去,并且抵御各种异世界生物的威胁.想在 ...

论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification

论文阅读笔记（六）【TCSVT2018】:Semi-Supervised Cross-View Projection-Based Dictionary Learning for Video-Based Person Re-Identification的更多相关文章

随机推荐

热门专题