论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID

Introduction

（1）Motivation：

当前的一些video-based reid方法在特征提取、损失函数方面不统一，无法客观比较效果。本文作者将特征提取和损失函数固定，对当前较新的4种行人重识别模型进行比较。

（2）Contribution：

① 对四种ReId方法（temporal pooling, temporal attention, RNN and 3D conv）进行科学合理的比较；

② 提出了一种采用时空卷积提取时间特征的注意力提取网络。

Method

（1）视频片编码（video clip encoder）：

将视频切成若干片段 {c_k}，每个片段含有 T 帧，将每个片段编码成 D 维特征向量 f_c ，视频的特征为这些片段取平均值。

① 3D CNN：采用3D ResNet模型，将最后一个分类层替换为行人身份的输出，将 T 帧输入网络中，输出即为特征表示。

对于 2D CNN：采用ResNet-50模型，每次输入一帧图像，每个片段提取 T 次特征，即 {f_c^t}，t 属于 [1, T]，即 T*D 的特征矩阵，再采用以下方法将特征压缩到特征向量 f_c 中。

② 时间池化（temporal pooling）：考虑最大池化和平均池化，即：

③ 时间注意力（temporal attention）：应用注意力权重，设第 c 个视频段权重因子为 a_c^t，其中 t 属于 [1, T]：

Resnet-50的最后卷积层规格 [w, h, 2048]，其中 w 和 h 取决于输入图片的尺寸。

注意力提取网络的输入规格 [T, w, h, 2048]，输出 T 个注意力得分。

考虑两种注意力网络：

　　空间卷积+全连接（spatial conv + FC）：卷积层规格（kernel = w*h，input channel number = 2048，output channel number = d_t），全连接层规格（input channel number = d_t，output channel number = 1），输出结果为 s_c^t，其中 t 属于 [1, T].

　　时空联合卷积（spatial + temporal conv）：先通过空间卷积层（kernel = w*h，input channel number = 2048，output channel number = d_t），再通过时间卷积层（个人理解参数3的含义是每个元素是由三帧计算而得，input channel number = d_t，output channel number = 1），输出结果为 s_c^t，其中 t 属于 [1, T].

使用softmax计算注意力得分 a_c^t：

结合正则化（使用sigmoid函数）：

④ RNN：考虑两种方法：

　　直接把隐藏层元素 h^T 作为最后结果，即：

　　计算 RNN 输出 {o^t} 的平均值，即：

（2）损失函数：

考虑两种损失函数，三元组损失（Batch Hard triplet loss）和交叉熵损失（Softmax cross-entropy loss）。

每个batch含有 P 个行人视频，每个视频含有 K 个视频片段，即每个batch含有 PK 个视频片段，三元组损失为：

交叉熵损失为：

如何理解？

损失函数：

（3）相似度计算：

通过 L2 距离，计算视频特征的相似度。

Evaluation

（1）实验设置：

数据集：MARS

参数设置：batch size = 32，每个行人抽取4段tracklets，learning rate = 0.0001/0.0003，视频帧的规格为 224*112.（关于batch的设置描述模糊）

（2）实验结果：

① 3D CNN实验比较：

② Temporal pooling实验比较：

③ Temporal attention实验比较：

④ RNN实验比较：

⑤ 对比方法：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID的更多相关文章

论文阅读笔记十三：The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation（FC-DenseNets)(CVPR2016)
论文链接:https://arxiv.org/pdf/1611.09326.pdf tensorflow代码:https://github.com/HasnainRaz/FC-DenseNet-Ten ...
论文阅读笔记五十二：CornerNet-Lite: Efficient Keypoint Based Object Detection（CVPR2019）
论文原址:https://arxiv.org/pdf/1904.08900.pdf github:https://github.com/princeton-vl/CornerNet-Lite 摘要基 ...
[论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings
[论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 本文结构解决问题主要贡献算法原理参考文 ...
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...
论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
[置顶] 人工智能（深度学习）加速芯片论文阅读笔记（已添加ISSCC17，FPGA17...ISCA17...）
这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于 ...
Nature/Science 论文阅读笔记
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...
论文阅读笔记（二十一）【CVPR2017】：Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identiﬁcation
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...

随机推荐

Day6前端学习之路——布局
一.定位 1)静态定位 position:static(默认) 2)相对定位 position:relative(要配合top.bottom.left.right等属性来使用) 3)绝对定位 pos ...
Python Flask 开发学习笔记
Flask学习安装pipenv虚拟环境 pip Install pipenv 运行pipenv pipenv --version 进入虚拟容器 pipenv install 安装flask pipe ...
WinRAR目录穿越
WinRAR目录穿越漏洞浅析及复现(CVE-2018-20250) 文章来源: https://www.t00ls.net/articles-50276.html EXP: https://githu ...
junit测试的介绍和应用
目录 1.junit测试简介 2.运行环境 3.测试过程 1.junit测试简介 JUnit是一个Java语言的单元测试框架.它由Kent Beck和Erich Gamma建立,逐渐成为源于Kent ...
.NET代码混淆工具NET Reactor - 初学者系列-学习者系列文章
这几天无事,除了看书,然后就倒腾原来的代码.想起.NET的代码混淆工具软件,所以今天就讲讲这个.NET代码混淆工具. .NET代码混淆工具软件,以前有了解和找过,但是当时需求不大,所以找了下就搁置了. ...
codewars--js--Write Number in Expanded Form—filters、map、reduce、forEach
问题描述: you will be given a number and you will need to return it as a string in Expanded Form. For ex ...
linux中vim常用操作
三种模式 # 命令模式 vim 文件名 # 插入模式按a/i/o 进行插入模式按esc 重新进入命令模式 # 编辑模式按:(冒号)进入编辑模式插入命令命令作用 a 在光标所在字符后插入 A ...
nginx基础（一）
一.nginx的安装.启动.停止及文件解读 yum -y install gcc gcc-c++ autoconf pcre-devel make automake yum -y install wg ...
VSCode 完美整合前后端框架（angular2+.NET core）
首先打开命令行查看本地.NET版本. 通过命令行安装模板. dotnet new --install Microsoft.AspNetCore.SpaTemplates::* 创建demo目录,并用v ...
mysql 不能加载表问题
记录一次 mysql 5.7 下,出现重启数据库后不能加载特定表的问题处理. 搜索了很多的类似的错误,大多都是说因为外键同名的索引丢失的情况.但在5.7这个版本下,会禁止更新外键关联的索引. 最后经过 ...

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID的更多相关文章

随机推荐

热门专题