CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

[1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification, 30th Ieee Conference on Computer Vision and Pattern Recognition, (Ieee, New York, 2017), pp. 6776-6785.

摘要：

监控相机广泛应用不同场景。在不同相机下识别人的需求就是行人再识别。在计算机视觉领域最近得到了日益增加的关注，但对比与基于图像的行人再识别方法很少有关注基于视频。现有的工作通常包含两个步骤，称为特征学习与度量学习。同时很多方法并没有充分利用时间信息与位置信息。在这篇论文中，我们关注与基于视频的行人再识别并建立一个端对端的深度架构来联合特征与度量的学习。我们提出的方法能够使用一个时间注意力模型自动地从给定地视频中挑选出最有区分力的帧。不仅如此，在衡量与另一个视频的相似度时，使用一个空间循环模型结合每个位置周围的信息。我们的方法使用一个联合的方式同时处理时空信息。在三个公共数据集上的实验表明了我们提出的深度网络的每个组件的有效性，超过了最先进算法的表现。

总结：

在这篇论文中，我们提出了一个端对端的深层神经网络结构，在衡量相似度时它结合了时间注意力模型来选择对有区分力的帧的关注和一个空间循环模型来利用上下文信息。我们精心设计实验来展示提出的方法的每个组件的有效性。与最先进方法相比，我们的方法表现更好，这表明提出的时间注意力模型对于特征学习，空间循环模型对于度量学习都是有效的。

在近几年，为取得行人再识别的效果提升付出了很多努力。但是，这仍然与现实应用有很大的距离。现在的问题包括严重的遮挡与光照变化，人类姿态的无规则变化，不同人物的服饰颜色与纹理相似。此外，现在是时候强调行人再识别研究的最大限制是缺少非常大尺寸的数据集，其中存在许多实际问题，特别是深层网络越来越流行。因此我们未来的工作就是尽可能收集更多的数据，覆盖尽可能多的场景。

方法概述：

整体网络结构如下图所示，采用了三元序列作为网络输入，先经过AlexNet提取特征，将fc7的输出喂入后面的时间注意力模型，时间注意力模型接受维的输入，然后产生维的输出。然后使用这块的输出构建triplet loss作为一个监督。

同时作者选择了pool5层的输出喂入到空间循环网络，一次输入正负对样本，网络的目标是判断这一对是不是属于同一个人，所以它是一个二分类模型。

最后整体的损失是这两者的叠加，测试时使用下式作为排序依据。

下面介绍一下作者特殊设计的时间注意力模型（TAM）与空间循环模型SRM。

TAM的结构如下所示，输入为图片序列x的fc7层的T个特征图。

这个输入首先经过一个Attention层，它的结构为：

可以看出是一个维度的矩阵，最终的输出是一个维度的矩阵，相当于经过这一步，就产生了对于原始序列的初步关注，作者使用了多个Attention块，并且针对同一输入产生的输出不同，从上图中可以看出不同的Attention块唯一不共享的权重的是前一阶段的隐藏状态。继而把这些初步关注的结果喂入到RNN中。每一步都将产生一个维的输出，之后使用时间的平均池化得到TAM的输出。

对于SRM它的目标是处理视频间的度量学习，结构如下：

它接受pool5层的特征作为输入，对于一对特征进行相减操作，这就相当于粗略地计算了两个视频序列的不同，然后再使用后续结构对这一信息进行加工总结。

首先作者经过了6个不同方向的空间RNN,作者没有说明这里的RNN结构只说明是使用LSTM实现的，可以看到RNN输入输出两者的总维度相同，所以推断这里的LSTM应该是引出了每个循环体的输出，然后堆叠在一起，接着作者把这个六个空间RNN结果堆叠在一起，相当于每个位置的深度上表达了从六个方向提取的信息，继而使用一个1*1的卷积核总结这六个方向的信息，将其称为上下文特征。作者说这样做能够对光照变化和遮挡不那么敏感（？？）。

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification的更多相关文章

论文阅读笔记（二十二）【CVPR2017】：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identiﬁcation
Introduction 在视频序列中,有些帧由于被严重遮挡,需要被尽可能的“忽略”掉,因此本文提出了时间注意力模型(temporal attention model,TAM),注重于更有相关性的帧. ...
《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记：基础理论
转自 http://blog.csdn.net/xingzhedai/article/details/53144126 更多参考:http://blog.csdn.net/mafeiyu80/arti ...
论文翻译：2020_Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks
论文地址:基于分层递归神经网络的嵌入式设备轻量化在线降噪引用格式:Schröter H, Rosenkranz T, Zobel P, et al. Lightweight Online Noise ...
课程五(Sequence Models)，第一周（Recurrent Neural Networks） —— 1.Programming assignments：Building a recurrent neural network - step by step
Building your Recurrent Neural Network - Step by Step Welcome to Course 5's first assignment! In thi ...
转：RNN(Recurrent Neural Networks)
RNN(Recurrent Neural Networks)公式推导和实现 http://x-algo.cn/index.php/2016/04/25/rnn-recurrent-neural-net ...
论文翻译：Conditional Random Fields as Recurrent Neural Networks
Conditional Random Fields as Recurrent Neural Networks ICCV2015 cite237 1摘要: 像素级标注的重要性(语义分割图像理解) ...
课程五(Sequence Models)，第一周（Recurrent Neural Networks） —— 3.Programming assignments：Jazz improvisation with LSTM
Improvise a Jazz Solo with an LSTM Network Welcome to your final programming assignment of this week ...
论文笔记：Emotion Recognition From Speech With Recurrent Neural Networks
动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情 ...
cs231n spring 2017 lecture10 Recurrent Neural Networks 听课笔记
(没太听明白,下次重新听一遍) 1. Recurrent Neural Networks

随机推荐

JavaCV的摄像头实战之七：推流(带声音)
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本文是<JavaCV的摄像头实战> ...
JS基础代码
1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="U ...
为何数据库连接池不采用IO多路复用？
今天我们聊一个不常见的 Java 面试题:为什么数据库连接池不采用 IO 多路复用? 这是一个非常好的问题.IO多路复用被视为是非常好的性能助力器.但是一般我们在使用 DB 时,还是经常性采用c3 ...
Springmvc01-什么是Springmvc
首先,我们回顾一下什么是MVC 1.什么是MVC MVC是模型(model),视图(View),控制器(Controller)的简写,是一种软件基本规范 Model(模型):数据模型,提供要展示的 ...
Java语言的词法分析器的Java实现
一．实验目的 1. 学会针对DFA转换图实现相应的高级语言源程序. 2. 深刻领会状态转换图的含义,逐步理解有限自动机. 3. 掌握手工生成词法分析器的方法,了解词法分析器的内部工作原理. 二．实验内 ...
一个程序的自我修养「GitHub 热点速览 v.22.19」
一个程序要诞生涉及前后端技术,比如,你可以用可视化网页搭建工具 tmagic-editor 完成前端部分,而后端部分的数据库以及数据处理可能就要用到 jsonhero-web 和 directus.知 ...
跨云平台与物理专线使用Vxlan实现两地二层互通，并使用ospf与bgp做底层链路主备
Vxlan基础,已掌握可略过 VXLAN网络架构 VXLAN是NVO3中的一种网络虚拟化技术,通过将原主机发出的数据包封装在UDP中,并使用物理网络的IP.MAC作为外层头进行封装,然后在IP网络上传 ...
unity---点击事件
点击事件点击触发的事件脚本脚本挂载方式 On Click() 如果点击后触发,调用Button物体下,Button_lick脚本中的func函数/func_text 结果
MUI+html5+script 不同页面间转跳（九宫格）
在点击图片/标题需要跳转到详情页面的使用场景中,首先定义图片元素的id为"tyzc",是同一类下的第一个图片 <img src="img/img3.png" ...
Probabilistic two-stage detection

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification的更多相关文章

随机推荐

热门专题