论文阅读笔记（十一）【ICCV2017】：Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identiﬁcation

Introduction

（1）Motivation：

当前采用CNN-RNN模型解决行人重识别问题仅仅提取单一视频序列的特征表示，而没有把视频序列匹配间的影响考虑在内，即在比较不同人的时候，根据不同的行人关注不同的部位，如下图：

（2）Contribution：

将注意力模型考虑进行人重识别中，提出了时空联合注意力池化网络（jointly Attentive Spatial-Temporal Pooling Networks，ASTPN）.

The Proposed Model Architecture

（1）简述：

建立了时空注意力网络（a recurrent-convolutional network with jointly attentive spatial-temporal pooling，ASTPN），其工作原理是：将一对视频序列传入孪生神经网络，获得两者的特征表示，并生成它们的欧几里德距离。如图所示，每个输入（包含光流的视频帧）通过CNN网络，并从最后一个卷积层中提取出特征映射。然后将这些特征映射输入到空间池层中，每一个时间步获得一个图像表示。然后，我们把时间信息考虑在内，利用循环神经网络生成视频序列的特征集。最后，由循环神经网络产生的所有时间步被注意力时间池结合起来，形成序列特征表示。

（2）卷积层：

输入：网络的输入由三个彩色通道和两个光流组成。颜色通道提供服装和背景等空间信息，而光流通道提供时间运动信息。给定输入序列 v = {v¹， …， v^T}，我们利用下表所示的卷积网络获得特征映射集 C = {C¹，…，C^T}。然后将每个 Cⁱ∈R^c×w×h输入空间池化层，得到图像级表示 rⁱ。

（3）空间池化层（Spatial Pooling Layer）：

使用空间金字塔池化（SPP）层来组成空间注意力池，具体如下：

假设池化核大小集为{(m_w^j, m_h^j)| j = 1, …, n}，则确定第 j 个池化核窗口大小：

第 j 个池化步长为：

然后通过公式得到结果向量 rⁱ：

其中 f_p表示采用窗口大小 win 和步长 str 的最大池化函数。f_R表示重构函数，将矩阵重构成一个向量。除此之外，⊕ 表示向量连接操作。

令一个序列表示为r = {rⁱ∈R^L | i = 1, …, T}，其中：。

（4）注意力时间池化层（Attentive Temporal Pooling Layer）

将上一层得到的 r 输入到循环神经网络提取时间步信息，循环层可以计算表示为：

其中 s^t-1∈R^N是包含上一时间步信息的隐藏层结点，o^t是时间t的输出。全连接权重 U∈R^L*N将循环层输入 r^t从 R^L映射到 R^N，全连接权重 W∈R^N*N将隐藏层结点 s^t-1从 R^N映射到 R^N。注意到循环层通过矩阵U将特征向量嵌入到低维特征中。在第一个时间步中，隐藏层结点被初始化为0，隐藏层通过tanh函数激活传递。

定义矩阵 P∈R^T*N和 G∈R^T*N，其第 i 行分别表示检测数据和对照数据在循环网络的第 i 个时间步的输出，我们计算注意力矩阵 A∈R^T*T：

其中 U∈R^N*N是网络学习的信息分享感知矩阵。

之后，对 A 分别应用列最大池化和行最大池化来获得时间权重向量 t_p∈R^T和 t_g∈R^T。t_p的第 i 个元素表示探测序列中第 i 帧的重要得分，t_g同理。再对时间权重向量 t_p和 t_g应用softmax函数，来生成注意力向量 a_p∈R^T和 a_g∈R^T。a_g的第 i 个元素可以计算为：

最后，应用 P、G 和 a_p、a_g之间的点乘来获得序列级表示 v_p∈R^N和 v_g∈R^N，分别计算为：

（5）损失函数：思想与上篇论文类似【传送门】

孪生神经网络的铰链损失：

将识别身份的损失考虑在内，训练目标为：

Experimental Results

（1）实验设置：

① 数据集：iLIDS-VID、PRID-2011、MARS

② 参数设置：截取的帧数 k = 18，孪生代价函数的边距 m = 3，特征空间维数为128，初始学习率0.001，批量设置为1.

③ 对比方法：RNN-CNN、RFA、VR、AFDA

（2）预处理：

① 裁剪、镜像来增强数据，裁剪后的子图像的宽度和长度都比原图像小8个像素，在整个序列随机使用镜像操作，概率 p=0.5。

② 将图像精确地转换为YUV颜色空间，并将每个颜色通道归一化为零均值和单位方差；使用Lucas-Kanade方法在每对相邻图像之间提取垂直和水平的光流，然后提取光流通道正规化为[-1, 1]

（3）实验结果：

① 与对比方法比较：

② 在MARS数据集上结果：

③ 不同池化策略的比较：

④ 交叉数据集上测试结果：

在ILIDS-VID数据集上进行训练，然后在PRID-2011数据集上进行测试。

论文阅读笔记（十一）【ICCV2017】：Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identiﬁcation的更多相关文章

论文阅读笔记二十五：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要深度卷积网络需要输入 ...
论文阅读笔记十一：Rethinking Atrous Convolution for Semantic Image Segmentation（DeepLabv3)(CVPR2017)
论文链接:https://blog.csdn.net/qq_34889607/article/details/8053642 摘要该文重新窥探空洞卷积的神秘,在语义分割领域,空洞卷积是调整卷积核感受 ...
论文阅读 A Data-Driven Graph Generative Model for Temporal Interaction Networks
13 A Data-Driven Graph Generative Model for Temporal Interaction Networks link:https://scholar.googl ...
论文阅读笔记十七：ReﬁneNet: Multi-Path Reﬁnement Networks for High-Resolution Semantic Segmentation（CVPR2017）
论文源址:https://arxiv.org/abs/1611.06612 tensorflow代码:https://github.com/eragonruan/refinenet-image-seg ...
论文阅读笔记: Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks
论文概况 Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks是处理比较两个句子相似度的问题, ...
论文阅读笔记二-ImageNet Classification with Deep Convolutional Neural Networks
分类的数据大小:1.2million 张,包括1000个类别. 网络结构:60million个参数,650,000个神经元.网络由5层卷积层,其中由最大值池化层和三个1000输出的(与图片的类别数相同 ...
论文阅读笔记（十）【CVPR2016】：Recurrent Convolutional Network for Video-based Person Re-Identiﬁcation
Introduction 该文章首次采用深度学习方法来解决基于视频的行人重识别,创新点:提出了一个新的循环神经网络架构(recurrent DNN architecture),通过使用Siamese网 ...
论文阅读笔记（二十一）【CVPR2017】：Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identiﬁcation
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...
论文阅读笔记（十八）【ITIP2019】：Dynamic Graph Co-Matching for Unsupervised Video-Based Person Re-Identiﬁcation
论文阅读笔记(十七)ICCV2017的扩刊(会议论文[传送门]) 改进部分: (1)惩罚函数:原本由两部分组成的惩罚函数,改为只包含 Sequence Cost 函数: (2)对重新权重改进: ① P ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

随机推荐

go微服务框架kratos学习笔记八 (kratos的依赖注入)
目录 go微服务框架kratos学习笔记八(kratos的依赖注入) 什么是依赖注入 google wire kratos中的wire Providers injector(注入器) Binding ...
简单ts文件结构
一．ts文件结构 DEMO{ 1. .vscode:特有文件夹,调试的配置文件,启动浏览器 2. Js:放ts编译后的文件,不管 3. Ts:放ts文件,敲代码 4. tsconfig.json:ts ...
上周 GitHub 热点速览 vol.08：系统设计必看 The System Design Primer
作者:HelloGitHub-小鱼干摘要:GitHub Trending 上周看点,老项目依旧抢眼,系统设计必看 Repo:The System Design Primer 周获 1k+ star, ...
Nodejs中，path.join()和path.resolve()的区别
在说path.join()和path.resolve()的区别之前,我先说下文件路径/和./和../之间的区别 /代表的是根目录: ./代表的是当前目录: ../代表的是父级目录. 然后再来说下pat ...
css实现表单label文字两端对齐
如图,在我们写页面的时候,经常遇到这种的情况,而需求是想让label文字两端对齐,我们来看看如何用css解决 /**css代码**/ ul li{ list-style: none; } .info- ...
MyEclipse10下载安装破解及汉化内含jdk8u241及其帮助文档
下载MyEclipse10以及破解包 MyEclipse10: 提取码:020c 破解包提取码:mycj 注:破解包内含有破解教程,很详细,这里就不多说了 MyEclipse10汉化操作系统:wi ...
聊聊GIS数据的四个分层与GIS服务
本篇不讨论矢量栅格数据的结构,也不讨论矢量与栅格的区别(即设定读者有这方面的基础). 版权声明:原创.博客园/B站/小专栏/知乎/CSDN @秋意正寒转载请标注原地址并声明转载: https://w ...
Zookeeper机制
顾名思义 zookeeper 就是动物园管理员,他是用来管 hadoop(大象).Hive(蜜蜂).pig(小猪)的管理员, Apache Hbase 和 Apache Solr 的分布式集群都用到 ...
查看deepin操作系统版本命令
cat /proc/version cat /etc/debian_version cat /etc/os-release lsb_release -a uname -a uname -r sc ...
js删除对象数组
若用remove删除某个对象数组,使用for循环遍历数组中的每个对象进行删除,则必须从数组的最后一个元素倒序删除,否则每次删除都只能删除数组的一半元素,因为把索引为0的子节点删除后那么很自然的原来索引 ...

论文阅读笔记（十一）【ICCV2017】：Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identiﬁcation

论文阅读笔记（十一）【ICCV2017】：Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identiﬁcation的更多相关文章

随机推荐

热门专题