CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

[1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification, 30th Ieee Conference on Computer Vision and Pattern Recognition, (Ieee, New York, 2017), pp. 6776-6785.

摘要：

监控相机广泛应用不同场景。在不同相机下识别人的需求就是行人再识别。在计算机视觉领域最近得到了日益增加的关注，但对比与基于图像的行人再识别方法很少有关注基于视频。现有的工作通常包含两个步骤，称为特征学习与度量学习。同时很多方法并没有充分利用时间信息与位置信息。在这篇论文中，我们关注与基于视频的行人再识别并建立一个端对端的深度架构来联合特征与度量的学习。我们提出的方法能够使用一个时间注意力模型自动地从给定地视频中挑选出最有区分力的帧。不仅如此，在衡量与另一个视频的相似度时，使用一个空间循环模型结合每个位置周围的信息。我们的方法使用一个联合的方式同时处理时空信息。在三个公共数据集上的实验表明了我们提出的深度网络的每个组件的有效性，超过了最先进算法的表现。

总结：

在这篇论文中，我们提出了一个端对端的深层神经网络结构，在衡量相似度时它结合了时间注意力模型来选择对有区分力的帧的关注和一个空间循环模型来利用上下文信息。我们精心设计实验来展示提出的方法的每个组件的有效性。与最先进方法相比，我们的方法表现更好，这表明提出的时间注意力模型对于特征学习，空间循环模型对于度量学习都是有效的。

在近几年，为取得行人再识别的效果提升付出了很多努力。但是，这仍然与现实应用有很大的距离。现在的问题包括严重的遮挡与光照变化，人类姿态的无规则变化，不同人物的服饰颜色与纹理相似。此外，现在是时候强调行人再识别研究的最大限制是缺少非常大尺寸的数据集，其中存在许多实际问题，特别是深层网络越来越流行。因此我们未来的工作就是尽可能收集更多的数据，覆盖尽可能多的场景。

方法概述：

整体网络结构如下图所示，采用了三元序列作为网络输入，先经过AlexNet提取特征，将fc7的输出喂入后面的时间注意力模型，时间注意力模型接受维的输入，然后产生维的输出。然后使用这块的输出构建triplet loss作为一个监督。

同时作者选择了pool5层的输出喂入到空间循环网络，一次输入正负对样本，网络的目标是判断这一对是不是属于同一个人，所以它是一个二分类模型。

最后整体的损失是这两者的叠加，测试时使用下式作为排序依据。

下面介绍一下作者特殊设计的时间注意力模型（TAM）与空间循环模型SRM。

TAM的结构如下所示，输入为图片序列x的fc7层的T个特征图。

这个输入首先经过一个Attention层，它的结构为：

可以看出是一个维度的矩阵，最终的输出是一个维度的矩阵，相当于经过这一步，就产生了对于原始序列的初步关注，作者使用了多个Attention块，并且针对同一输入产生的输出不同，从上图中可以看出不同的Attention块唯一不共享的权重的是前一阶段的隐藏状态。继而把这些初步关注的结果喂入到RNN中。每一步都将产生一个维的输出，之后使用时间的平均池化得到TAM的输出。

对于SRM它的目标是处理视频间的度量学习，结构如下：

它接受pool5层的特征作为输入，对于一对特征进行相减操作，这就相当于粗略地计算了两个视频序列的不同，然后再使用后续结构对这一信息进行加工总结。

首先作者经过了6个不同方向的空间RNN,作者没有说明这里的RNN结构只说明是使用LSTM实现的，可以看到RNN输入输出两者的总维度相同，所以推断这里的LSTM应该是引出了每个循环体的输出，然后堆叠在一起，接着作者把这个六个空间RNN结果堆叠在一起，相当于每个位置的深度上表达了从六个方向提取的信息，继而使用一个1*1的卷积核总结这六个方向的信息，将其称为上下文特征。作者说这样做能够对光照变化和遮挡不那么敏感（？？）。

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification的更多相关文章

论文阅读笔记（二十二）【CVPR2017】：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identiﬁcation
Introduction 在视频序列中,有些帧由于被严重遮挡,需要被尽可能的“忽略”掉,因此本文提出了时间注意力模型(temporal attention model,TAM),注重于更有相关性的帧. ...
《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记：基础理论
转自 http://blog.csdn.net/xingzhedai/article/details/53144126 更多参考:http://blog.csdn.net/mafeiyu80/arti ...
论文翻译：2020_Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks
论文地址:基于分层递归神经网络的嵌入式设备轻量化在线降噪引用格式:Schröter H, Rosenkranz T, Zobel P, et al. Lightweight Online Noise ...
课程五(Sequence Models)，第一周（Recurrent Neural Networks） —— 1.Programming assignments：Building a recurrent neural network - step by step
Building your Recurrent Neural Network - Step by Step Welcome to Course 5's first assignment! In thi ...
转：RNN(Recurrent Neural Networks)
RNN(Recurrent Neural Networks)公式推导和实现 http://x-algo.cn/index.php/2016/04/25/rnn-recurrent-neural-net ...
论文翻译：Conditional Random Fields as Recurrent Neural Networks
Conditional Random Fields as Recurrent Neural Networks ICCV2015 cite237 1摘要: 像素级标注的重要性(语义分割图像理解) ...
课程五(Sequence Models)，第一周（Recurrent Neural Networks） —— 3.Programming assignments：Jazz improvisation with LSTM
Improvise a Jazz Solo with an LSTM Network Welcome to your final programming assignment of this week ...
论文笔记：Emotion Recognition From Speech With Recurrent Neural Networks
动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情 ...
cs231n spring 2017 lecture10 Recurrent Neural Networks 听课笔记
(没太听明白,下次重新听一遍) 1. Recurrent Neural Networks

随机推荐

最大数maxnumber - 题解【树状数组】
原题: 现在请求你维护一个数列,要求提供以下两种操作: 1. 查询操作.语法:Q L 功能:查询当前数列中末尾L个数中的最大的数,并输出这个数的值.限制:L不超过当前数列的长度. 2. 插入操作.语法 ...
MATLAB地图工具箱学习心得（二）设计可变参数和位置拾取的“放大镜”式投影程序
最近刚好因为一些原因整理这方面的内容,所以还是把这篇鸽了一年多的博客顺手写出来了∠( ᐛ 」∠)＿.因为是当时课程设计的一部分,程序上难免会有一些不足和bug,在这里将设计的思路分享给大家. 本篇博客 ...
Bootstrap Blazor Table 组件（三）智能生成
原文链接:https://www.cnblogs.com/ysmc/p/16201153.html Bootstrap Blazor 官网地址:https://www.blazor.zone 有了解过 ...
ghostnet论文解析：ghost
创建日期: 2020-03-02 17:02:54 简介: GhostNet是2020CVPR录用的一篇对卷积操作进行改进的论文.文章的核心内容是Ghost模块(Ghost Module),可以用来替 ...
C++进阶-1-模板基础(函数模板、类模板)
C++进阶模板 1.1 函数模板 1 #include<iostream> 2 using namespace std; 3 4 // 模板 5 6 // 模板的简单实例 7 // 要求 ...
jQuery前端第三方框架
计时器 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8 ...
在vue-cli中安装scss，且可以全局引入scss的步骤
简历魔板__个人简历模板在线生成在写vue的css样式时,觉得需要css预处理器让自己的css更加简洁.适应性更强.可读性更佳,更易于代码的维护,于是在vue-cli脚手架采用scss.写过的人都知 ...
Git 后续——分支与协作
Git 后续--分支与协作本文写于 2020 年 9 月 1 日之前一篇文章写了 Git 的基础用法,但那其实只是「单机模式」,Git 之所以在今天被如此广泛的运用,是脱不开分支系统这一概念的. ...
75. Sort Colors - LeetCode
Question 75. Sort Colors Solution 题目大意: 给一个数组排序,这个数组只有0,1,2三个元素,要求只遍历一遍思路: 记两个索引,lowIdx初始值为0,highId ...
在 Git 提交信息中使用 Emoji
Gitmoji 旨在解释如何在 Git 提交消息时使用表情符号.在提交信息时使用表情符号,可以更容易地识别提交的目的或意图. Emoji 列表 :优化项目结构 / 代码格式 :art: ️ :性能提升 ...

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification的更多相关文章

随机推荐

热门专题