Introduction

该文章首次采用深度学习方法来解决基于视频的行人重识别,创新点:提出了一个新的循环神经网络架构(recurrent DNN architecture),通过使用Siamese网络(孪生神经网络),并结合了递归与外貌数据的时间池,来学习每个行人视频序列的特征表示。

Method

(1)特征提取架构:

第一层:卷积神经网络,提取每个行人的外貌特征向量;

第二层:循环神经网络,让网络更好的提取时空信息;

第三层:时间池,让网络将不同长度的视频序列总结为一个特征向量.

Siamese网络:通过训练,将来自同一个人的视频特征变得更近,将来自不同人的视频特征变的更远.

(2)输入:

包括两部分:光流(optical flow)、颜色通道(colour channel)

光流对行人的步态等动作线索进行编码,而颜色通道对行人的样貌和穿着进行编码.

(3)卷积神经网络:

对每一个步行时刻(time-step,可以理解为组成步态周期的一个单元)进行卷积神经网络处理,把输入的图片记为 x,则输出为向量 f = C(x).

卷积神经网络架构:

激活函数采用tanh,池化层采用最大maxpool,即:

s = s(1), ..., s(T) 表示为一个视频序列,T 为视频序列的长度,s(t) 为在时间 t 时的图片帧.

每个图片都要经过CNN来产生一个特征向量,即 f(t) = C(s(t)),其中 f(t) 是CNN最后层的向量表示.

(4)递归神经网络:基础介绍【传送门

f(t) 表示 s(t) 在CNN最后层的向量表示,则RNN输出为:

o(t) 规格:e * 1

f(t) 规格:N * 1

r(t-1) 规格:e * 1

Wi 规格:e * N

Ws 规格:e * e

f(t) 包含当前时刻的图像信息,r(t-1) 包含上一时刻的图像信息,对所有时刻的特征使用全连接层. r(t) 初始为零向量.

(5)时间池:

虽然RNNs可以捕获时间信息,但依然存在不足:

① RNN的输出偏向于较后的时刻;

② 时间序列分析通常需要在不同的时间尺度下提取信息(如语音识别中,提取的尺度包括:音节、单词、短语、句子、对话等).

解决方法:增加一个时间池化层(temporal pooling layer),该层从所有时刻收集信息,避免了偏向后面时刻的问题.

在时间池化层中,所有时刻RNN后的输出为{o(1), ..., o(T)},提出两个方法:

① 平均池化层:

② 最大池化层:(即向量的每一个元素都是从 T 个时刻中的对应位置挑选出的最大值)

(6)训练策略:

① 孪生神经网络:基础知识【传送门

给出一对视频序列 (si, sj),每个序列都通过CNN、RNN提取出特征向量,即 vi = R(si),vj = R(sj),孪生神经网络的训练目标为:(采用的距离为欧式距离)

② 识别验证:

预测特征向量 v 是第 q 个身份的概率为:

一共有 K 个可能身份,Wc 和 Wk 表示权重矩阵 W 的第 c 和 k 列.

③ 损失函数:

Experiments

(1)实验设置:

① 数据集 :iLIDS-VID、PRID-2011,一半用于训练,一半用于测试,运行10次计入平均值.

② 参数设置:孪生神经网络中 m = 2,特征空间维度 e = 128,梯度下降学习率 α = 1e-3,batchsize = 1,epochs = 300.

③ 硬件条件:GTX-980 GPU(运行1天)

④ 数据预处理:采用了裁剪和镜像的形式对数据进行增强. 将图像转为YUV色域,每个颜色通道被标准化为零均值和单位方差,使用Lucas-Kanade算法【传送门】计算每对帧之间的水平和垂直光流通道. 光流通道正规化为[-1,1]. 第一层神经网络的输入有5层通道,其中3层为颜色通道,2层为光流通道.

(2)实验结果:

① 比较了有无循环连接、有无光流特征情况下的实验结果.

② 比较时间池中使用平均池化、最大池化和基准方法(其它参考文献中的方法)的效果.

③ 比较不同视频序列长度的效果.

④ 与其它方法的对比.

⑤ 跨数据集测试,在数据集A训练,但在数据集B测试.

论文阅读笔记(十)【CVPR2016】:Recurrent Convolutional Network for Video-based Person Re-Identification的更多相关文章

  1. 论文阅读笔记十八:ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation(CVPR2016)

    论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet ...

  2. 论文阅读笔记十五:Pyramid Scene Parsing Network(CVPR2016)

    论文源址:https://arxiv.org/pdf/1612.01105.pdf tensorflow代码:https://github.com/hellochick/PSPNet-tensorfl ...

  3. 论文阅读笔记十:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016)

    论文链接:https://arxiv.org/pdf/1606.00915.pdf 摘要 该文主要对基于深度学习的分割任务做了三个贡献,(1)使用空洞卷积来进行上采样来进行密集的预测任务.空洞卷积可以 ...

  4. 论文阅读笔记十六:DeconvNet:Learning Deconvolution Network for Semantic Segmentation(ICCV2015)

    论文源址:https://arxiv.org/abs/1505.04366 tensorflow代码:https://github.com/fabianbormann/Tensorflow-Decon ...

  5. 论文阅读笔记十四:Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation(CVPR2015)

    论文链接:https://arxiv.org/abs/1506.04924 摘要 该文提出了基于混合标签的半监督分割网络.与当前基于区域分类的单任务的分割方法不同,Decoupled 网络将分割与分类 ...

  6. 论文阅读笔记十九:PIXEL DECONVOLUTIONAL NETWORKS(CVPR2017)

    论文源址:https://arxiv.org/abs/1705.06820 tensorflow(github): https://github.com/HongyangGao/PixelDCN 基于 ...

  7. 论文阅读笔记十二:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation(DeepLabv3+)(CVPR2018)

    论文链接:https://arxiv.org/abs/1802.02611 tensorflow 官方实现: https: //github.com/tensorflow/models/tree/ma ...

  8. 论文阅读笔记五:U-Net: Convolutional Networks for Biomedical Image Segmentation(CVPR2015)

    前面介绍了两个文本检测的网络,分别为RRCNN和CTPN,接下来鄙人会介绍语义分割的一些经典网络,同样也是论文+代码实现的过程,这里记录一下自己学到的东西,首先从论文下手吧. 英文论文原文地址:htt ...

  9. 论文阅读笔记七:Structure Inference Network:Object Detection Using Scene-Level Context and Instance-Level Relationships(CVPR2018)

    结构推理网络:基于场景级与实例级目标检测 原文链接:https://arxiv.org/abs/1807.00119 代码链接:https://github.com/choasup/SIN Yong ...

  10. 论文阅读笔记(二十一)【CVPR2017】:Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identification

    Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...

随机推荐

  1. 校招必看硬核干货:C++怎么学才能进大厂

    目录 关于小猿 如何找资料 自我定位 岗位需求 学习路线及时间安排 资料获取方式 C++语言在历史舞台上出现了不短的时间,虽然一直面临着Python,Go等新语言的挑战,但它在基础架构和大型软件上的优 ...

  2. VFP日期时间转中文日期时间

    本函数原为VFP中取日期转中文日期方式,后增加日期时间处理,并改用Iif及ICase修改原代码.Function DateTime2CHNParameters pdDate,plTime*!* pdD ...

  3. RTEMS进程同步机制

    互斥量 好像没有互斥量,信号量接收那儿有个图,互斥量似乎术语一类特殊的信号量. 信号量 12. Semaphore Manager 12.1. Introduction The semaphore m ...

  4. 国产安全自主可控IT智能运维管理解决方案

    新一轮科技革命和产业变革席卷全球,大数据.云计算.物联网.人工智能.区块链等新技术不断涌现,数字经济正深刻地改变着人类的生产和生活方式,作为经济增长新动能的作用日益凸显.伴随增长的,还有网络中不断涌现 ...

  5. Jmeter 连接Redis获取数据集

    公司开展了新的业务活动,需要配合其他部门做压测,由于脚本中的手机号和用户的uid需要参数化而且每次均不能重复,最初的考虑使用csv的方式来获取数据,比较头疼的问题是集群节点需要维护测试数据,所以我将所 ...

  6. AMD R2600+微星B450迫击炮配置的新工作机,分享给大家

    上个月,突然觉得自己总做用的电脑有点老了,虽然很不舍陪自己战斗了3,4年的老战士,下了很大的决心,才决定搞一台新的吧,虽然新电脑的配置也不算非常高,但是用于开发的话,也算不错的选择了,特此分享一下.又 ...

  7. MySQL存储过程和游标

    一.存储过程 什么是存储过程,为什么要使用存储过程以及如何使用存储过程,并且介绍创建和使用存储过程的基本语法. 什么是存储过程: 存储过程可以说是一个记录集,它是由一些T-SQL语句组成的代码块,这些 ...

  8. Foxmail for windows 客户端设置和 IMAP、POP3/SMTP 的设置

    Foxmail支持微信扫码.手机验证码.账号密码三种方式新建腾讯企业邮箱. 注意:目前仅foxmail 7.2.11版本支持微信扫码和手机验证码新建腾讯企业邮箱,可以foxmail官网https:// ...

  9. Bash脚本编程学习笔记07:循环结构体

    本篇中涉及到算术运算,使用了$[]这种我未在官方手册中见到的用法,但是确实可用的,在此前的博文<Bash脚本编程学习笔记03:算术运算>中我有说明不要使用,不过自己忘记了.大家还是尽量使用 ...

  10. idea 编译报错 Build completed with 1 error and 0 warnings in 2 s 113 ms

    settings里java compiler改成正确版本 project structure里同样如此