CVPR 2017:See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification
[1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification, 30th Ieee Conference on Computer Vision and Pattern Recognition, (Ieee, New York, 2017), pp. 6776-6785.
摘要:
监控相机广泛应用不同场景。在不同相机下识别人的需求就是行人再识别。在计算机视觉领域最近得到了日益增加的关注,但对比与基于图像的行人再识别方法很少有关注基于视频。现有的工作通常包含两个步骤,称为特征学习与度量学习。同时很多方法并没有充分利用时间信息与位置信息。在这篇论文中,我们关注与基于视频的行人再识别并建立一个端对端的深度架构来联合特征与度量的学习。我们提出的方法能够使用一个时间注意力模型自动地从给定地视频中挑选出最有区分力的帧。不仅如此,在衡量与另一个视频的相似度时,使用一个空间循环模型结合每个位置周围的信息。我们的方法使用一个联合的方式同时处理时空信息。在三个公共数据集上的实验表明了我们提出的深度网络的每个组件的有效性,超过了最先进算法的表现。
总结:
在这篇论文中,我们提出了一个端对端的深层神经网络结构,在衡量相似度时它结合了时间注意力模型来选择对有区分力的帧的关注和一个空间循环模型来利用上下文信息。我们精心设计实验来展示提出的方法的每个组件的有效性。与最先进方法相比,我们的方法表现更好,这表明提出的时间注意力模型对于特征学习,空间循环模型对于度量学习都是有效的。
在近几年,为取得行人再识别的效果提升付出了很多努力。但是,这仍然与现实应用有很大的距离。现在的问题包括严重的遮挡与光照变化,人类姿态的无规则变化,不同人物的服饰颜色与纹理相似。此外,现在是时候强调行人再识别研究的最大限制是缺少非常大尺寸的数据集,其中存在许多实际问题,特别是深层网络越来越流行。因此我们未来的工作就是尽可能收集更多的数据,覆盖尽可能多的场景。
方法概述:
整体网络结构如下图所示,采用了三元序列作为网络输入,先经过AlexNet提取特征,将fc7的输出喂入后面的时间注意力模型,时间注意力模型接受维的输入,然后产生维的输出。然后使用这块的输出构建triplet loss作为一个监督。
同时作者选择了pool5层的输出喂入到空间循环网络,一次输入正负对样本,网络的目标是判断这一对是不是属于同一个人,所以它是一个二分类模型。
最后整体的损失是这两者的叠加,测试时使用下式作为排序依据。


下面介绍一下作者特殊设计的时间注意力模型(TAM)与空间循环模型SRM。
TAM的结构如下所示,输入为图片序列x的fc7层的T个特征图。

这个输入首先经过一个Attention层,它的结构为:

可以看出是一个维度的矩阵,最终的输出是一个维度的矩阵,相当于经过这一步,就产生了对于原始序列的初步关注,作者使用了多个Attention块,并且针对同一输入产生的输出不同,从上图中可以看出不同的Attention块唯一不共享的权重的是前一阶段的隐藏状态。继而把这些初步关注的结果喂入到RNN中。每一步都将产生一个维的输出,之后使用时间的平均池化得到TAM的输出。
对于SRM它的目标是处理视频间的度量学习,结构如下:

它接受pool5层的特征作为输入,对于一对特征进行相减操作,这就相当于粗略地计算了两个视频序列的不同,然后再使用后续结构对这一信息进行加工总结。
首先作者经过了6个不同方向的空间RNN,作者没有说明这里的RNN结构只说明是使用LSTM实现的,可以看到RNN输入输出两者的总维度相同,所以推断这里的LSTM应该是引出了每个循环体的输出,然后堆叠在一起,接着作者把这个六个空间RNN结果堆叠在一起,相当于每个位置的深度上表达了从六个方向提取的信息,继而使用一个1*1的卷积核总结这六个方向的信息,将其称为上下文特征。作者说这样做能够对光照变化和遮挡不那么敏感(??)。

CVPR 2017:See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification的更多相关文章
- 论文阅读笔记(二十二)【CVPR2017】:See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification
Introduction 在视频序列中,有些帧由于被严重遮挡,需要被尽可能的“忽略”掉,因此本文提出了时间注意力模型(temporal attention model,TAM),注重于更有相关性的帧. ...
- 《转》循环神经网络(RNN, Recurrent Neural Networks)学习笔记:基础理论
转自 http://blog.csdn.net/xingzhedai/article/details/53144126 更多参考:http://blog.csdn.net/mafeiyu80/arti ...
- 论文翻译:2020_Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks
论文地址:基于分层递归神经网络的嵌入式设备轻量化在线降噪 引用格式:Schröter H, Rosenkranz T, Zobel P, et al. Lightweight Online Noise ...
- 课程五(Sequence Models),第一 周(Recurrent Neural Networks) —— 1.Programming assignments:Building a recurrent neural network - step by step
Building your Recurrent Neural Network - Step by Step Welcome to Course 5's first assignment! In thi ...
- 转:RNN(Recurrent Neural Networks)
RNN(Recurrent Neural Networks)公式推导和实现 http://x-algo.cn/index.php/2016/04/25/rnn-recurrent-neural-net ...
- 论文翻译:Conditional Random Fields as Recurrent Neural Networks
Conditional Random Fields as Recurrent Neural Networks ICCV2015 cite237 1摘要: 像素级标注的重要性(语义分割 图像理解) ...
- 课程五(Sequence Models),第一 周(Recurrent Neural Networks) —— 3.Programming assignments:Jazz improvisation with LSTM
Improvise a Jazz Solo with an LSTM Network Welcome to your final programming assignment of this week ...
- 论文笔记:Emotion Recognition From Speech With Recurrent Neural Networks
动机(Motivation) 在自动语音识别(Automated Speech Recognition, ASR)中,只是把语音内容转成文字,但是人们对话过程中除了文本还有其它重要的信息,比如语调,情 ...
- cs231n spring 2017 lecture10 Recurrent Neural Networks 听课笔记
(没太听明白,下次重新听一遍) 1. Recurrent Neural Networks
随机推荐
- 20202127 实验一《Python程序设计》实验报告
20202127 2022-2022-2 <Python程序设计>实验一报告课程:<Python程序设计>班级: 2021姓名: 马艺洲学号:20202127实验教师:王志强实 ...
- leetcode704二分查找
title: 二分查找 题目描述 题目链接:二分查找 解题思路 二分模板默写 int search(vector<int>& nums, int target) { int lef ...
- QY-16 浮标水质监测站 组成 及基础参数是什么?一文认识什么是浮标水质监测站
浮标水质监测站是设立在河流.湖泊.水库.近岸海域等流 域内的现场水质自动监测实验室,是以水质监测仪为核心,运用 传感器技术,结合浮标体.电源供电系统.数据传输设备组成的 放置于水域内的小型水质监测系统 ...
- 二、深入学习c++需要掌握的基础知识
一.掌握形参带默认值的函数 给定默认值的时候是从右向左给,因为函数在内存中的压栈顺序是按照形参列表的元素从右向左依次向内存中压栈 形参是否有默认值对调用效率的问题:如果有一个默认值,在函数调用的过程中 ...
- 【算法】归并排序(Merge Sort)(五)
归并排序(Merge Sort) 归并排序是建立在归并操作上的一种有效的排序算法.该算法是采用分治法(Divide and Conquer)的一个非常典型的应用.将已有序的子序列合并,得到完全有序的序 ...
- SpringMVC乱码解决
解决需要四个步骤:1.jsp页面编码 2.tomcat server.xml编码 3.使用filter对编码进行过滤 4.数据库编码设置 说明:四个地方的编码需要一致:本文使用gbk 1.js ...
- 将MySQL查询结果导出到Excel
总结将mysql的查询结果导出到文件的方法 总结 使用命令 select user, host, password from mysql.user into outfile '/tmp/user.xl ...
- 一次生产环境的docker MySQL故障
问题 昨天下午本来要去吃下午茶,然后前端小伙伴突然说接口怎么崩了,我登上sentry一看,报错了 (2005, "Unknown MySQL server host 'mysql' (-3) ...
- 《HALCON数字图像处理》第五章笔记
目录 第五章 图像运算 图像的代数运算 加法运算 图像减法 图像乘法 图像除法 图像逻辑运算(位操作) 图像的几何变换 图像几何变换的一般表达式 仿射变换 投影变换 灰度插值 图像校正 我在Gitee ...
- Vmware虚拟机安装及相关配置流程
1.Vmware虚拟软件安装 1.1下载地址 vmware 12 pro 的版本稳定性较好,所有我们最好选择该版本 下载地址:https://www.onlinedown.net/soft/10053 ...