论文阅读笔记（二十二）【CVPR2017】：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identiﬁcation

Introduction

在视频序列中，有些帧由于被严重遮挡，需要被尽可能的“忽略”掉，因此本文提出了时间注意力模型（temporal attention model，TAM），注重于更有相关性的帧。

常规的矩阵学习通常用特征的距离来进行计算，但忽视了帧之间的差异，上图可以看出，本文的方法考虑了相邻帧的空间差异，即空间循环模型（spatial recurrent model，SRM）。

The proposed method

（1）总体框架：

输入的视频序列为：，输入为视频序列三元组，首先通过CNN提取每帧的特征，选择的CNN为CaffeNet，包含5个卷积层（conv1~conv5）、2个全连接层（fc6~fc7），得到的输出为：。

时间注意力模型包含两部分：学习每帧相关性的子网络和时间RNN模型提取特征，最后输出特征为：，定义为：。

同时，对于视频对 xⁱ 和 x^j，计算和（第5个卷积层后的池化层），并将其输入到空间循环模型，该部分包含6个RNN，每个RNN都从一个特定的方向提取特征。输出的结果为一对视频是否为同一个人的可能性，即。

在测试中，最终两个视频的相似度可以计算为：（为什么这样计算？M的计算方法？）

其中 F 为欧式距离，λ 为平衡特征学习和矩阵学习的参数，默认为 1.

（2）针对特征学习的时间注意力模型（TAM）：

输入CNN提取的特征，每次时间单元 t 都对帧都进行平均加权，即：

其中，参数 w 通过训练如下子网络获得：

得到的送入RNN，其中的RNN网络采用 Long Short-Term Memory（LSTM）网络。最后将 T 次结果进行时间平均池化。

（3）针对度量学习的空间循环模型（SRM）：

输入一对视频序列的池化层特征，元素间进行相减操作，得到初步的差异映射，再通过1*1卷积。随后通过6个方向上的空间RNN模块，将得到的特征进行结合，再通过1*1卷积层和全连接层得到最终的特征。

其中RNN的工作原理为：

1*1卷积的原理为：

Experiments

（1）实验设置：

① 数据集：iLIDS-VID、PRID2011、MARS；

② 实现细节：CNN采用CaffeNet，RNN采用LSTM，视频序列长度设置为6，从tracklet中随机挑选，fc6和fc7的维度设置为1024.

（2）实验结果：

CNN：只使用CNN；

CNN+RNN：只使用CNN和RNN（不使用时间池化）；

CNN+TAM：使用CNN和RNN基础上的时间池化；

CNN+DIFF：使用CNN，并用全连接层代替空间RNN；

CNN+SRM：使用CNN，并使用空间RNN：

ALL：CNN、时间RNN、空间RNN。

论文阅读笔记（二十二）【CVPR2017】：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identiﬁcation的更多相关文章

论文阅读笔记（十二）【CVPR2018】：Exploit the Unknown Gradually: One-Shot Video-Based Person Re-Identiﬁcation by Stepwise Learning
Introduction (1)Motivation: 大量标记数据成本过高,采用半监督的方式只标注一部分的行人,且采用单样本学习,每个行人只标注一个数据. (2)Method: 对没有标记的数据生成 ...
论文阅读笔记五十二：CornerNet-Lite: Efficient Keypoint Based Object Detection（CVPR2019）
论文原址:https://arxiv.org/pdf/1904.08900.pdf github:https://github.com/princeton-vl/CornerNet-Lite 摘要基 ...
论文阅读笔记四十二：Going deeper with convolutions (Inception V1 CVPR2014 )
论文原址:https://arxiv.org/pdf/1409.4842.pdf 代码连接:https://github.com/titu1994/Inception-v4(包含v1,v2,v4) ...
论文阅读笔记三十二：YOLOv3: An Incremental Improvement
论文源址:https://pjreddie.com/media/files/papers/YOLOv3.pdf 代码:https://github.com/qqwweee/keras-yolo3 摘要 ...
论文阅读笔记六十二:RePr: Improved Training of Convolutional Filters(CVPR2019)
论文原址:https://arxiv.org/abs/1811.07275 摘要一个训练好的网络模型由于其模型捕捉的特征中存在大量的重叠,可以在不过多的降低其性能的条件下进行压缩剪枝.一些skip/ ...
论文阅读笔记三十六：Mask R-CNN（CVPR2017）
论文源址:https://arxiv.org/pdf/1703.06870.pdf 开源代码:https://github.com/matterport/Mask_RCNN 摘要 Mask R-CNN ...
论文阅读笔记三十四：DSSD: Deconvolutiona lSingle Shot Detector（CVPR2017）
论文源址:https://arxiv.org/abs/1701.06659 开源代码:https://github.com/MTCloudVision/mxnet-dssd 摘要 DSSD主要是向目标 ...
论文阅读笔记五十：CornerNet: Detecting Objects as Paired Keypoints(ECCV2018)
论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要本文提出了目 ...
论文阅读笔记四十四：RetinaNet:Focal Loss for Dense Object Detection(ICCV2017）
论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要目前,具有较高准确 ...

随机推荐

C++输出中文字符
注:本文转载自互联网,感谢作者整理! 1. cout 场景1: 在源文件中定义 const char* str = "中文" 在 VC++ 编译器上,由于Windows环境用 ...
Angular 从入坑到挖坑 - Angular 使用入门
一.Overview angular 入坑记录的笔记第一篇,完成开发环境的搭建,以及如何通过 angular cli 来创建第一个 angular 应用.入坑一个多星期,通过学习官方文档以及手摸手的按 ...
超实用的Eclipse快捷键大全（解密为什么他们的代码写的又快又好~）
1.Ctrl+s:快速保存代码一定要记得随时随地用Ctrl+s来保存我们的代码哦!!!不然等到电脑关机或者是使用的Eclipse突然闪退就欲哭无泪了.此时脑海里就突然出现了哔哔哔的画面~ 2.Alt ...
Affinity Propagation Demo1学习
利用AP算法进行聚类: 首先导入需要的包: from sklearn.cluster import AffinityPropagation from sklearn import metrics fr ...
[css]画圆形标签
画圆形标签的窍门: 圆形是在padding和margin中间同时是padding的内切圆也是margin的外接圆 .circle{ width: 20px; height: 20px; display ...
Android Studio MainActivity中的R为红色
csdn解决链接 https://blog.csdn.net/M283592338/article/details/79880413
关于将笔记本电脑作为wifi热点的详细步骤
常规做法直接度娘.如果出现无法打开wifi功能,可找对应解决方法. 1.先检查网卡是否支持承载网络,检查方法为在cmd中使用管理员权限运行,输入netsh wlan show drivers.查看支持 ...
ssh_exchange_identification: read: Connection reset
垃圾服务器,真的佛了,明明服务器从装的系统,连接半天连接不上,但是别人的电脑就可以,要使用xshell和fileshell链接,按照软件报的错误来修复的话,根本解决不了问题,还是得命令行ssh roo ...
Linux tcpdump 命令详解与示例
命令概要 Linux作为网络服务器,特别是作为路由器和网关时,数据的采集和分析是不可少的.TcpDump 是 Linux 中强大的网络数据采集分析工具之一. 用简单的话来定义tcpdump,就是:du ...
论文翻译：2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders
论文地址:使用半监督堆栈式自动编码器实现包含记忆的人工带宽扩展作者:Pramod Bachhav, Massimiliano Todisco and Nicholas Evans 博客作者:凌逆战 ...

论文阅读笔记（二十二）【CVPR2017】：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identiﬁcation

论文阅读笔记（二十二）【CVPR2017】：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identiﬁcation的更多相关文章

随机推荐

热门专题