论文阅读笔记（二十三）【ECCV2018】：Robust Anchor Embedding for Unsupervised Video Person Re-Identiﬁcation in the Wild

Introduction

当前主要的非监督方法都采用相同的训练数据集，这些数据集在不同摄像头中是对称的，即不存在单个行人的错误项，这些方法将在实际场景中效果下降。在本方法中，作者引入了非对称数据，如下图所示，提出了一个在真实环境下的非监督深度神经网络。

提出一个标签估计方法：a novel Robust Anchor Embeding （RACE） framework。

Proposed Method

（1）概述：

通俗来说，先固定几个序列，给这几个序列加上标签作为anchor，然后输入一个未标签序列，找出距离最近的若干个anchor，用这些anchor加权表示出这个未标签序列，这样既得到了相似距离又得到了权重，我们希望距离越近越好，权重越大越好，综上计算出最佳的anchor，作为预测的标签，循环这个过程得到所有的标签。

（2）Anchor初始化：

【注】anchor表示不同行人的身份，但在假设下并不严谨，两个anchor也可能属于同一个人。

随机抽选 m 个anchor序列传入预训练的ImageNet模型，分别表示不同的行人，即：，其中表示帧级特征向量的集合，l 表示对应的初始化标签。

在本文中，采用classification loss（Person re-identiﬁcation: Past, present and future. 提出）来作为训练的基础结构。【待阅读】

（3）标签估计：

① 鲁棒的Anchor嵌入方法：

定义未标签的视频序列为：。初始的帧级特征向量集合采用平均池化或者最大池化转化为单向量特征。考虑到一些帧存在跟踪偏差，即产生了离群帧（outlier frame），作者采用了regularized affine hull（RAH，From point to set: Extend the learning of distance metrics提出）【待阅读】，理解为对帧进行加权，得到 d 维的特征向量，即：

对于标签估计，首先学习embedding向量（姑且叫做嵌入向量）w_i，用于衡量未标签的特征序列和anchor集合间的关系。学习到第 i 个未标签序列的最近的 k 个anchors，即，k 远远小于 m，用这 k 个anchors来联合表示该未标签序列，即定义如下系数学习问题（Robust AnChor Embeding问题，RACE）：

该公式的第一项为embedding term，旨在限制未标签项与anchors之间的差异；

第二项为smoothing term，旨在权重越大的anchor距离越近，其中 d_<i> 为相似度，理解为到各个anchor的距离，⊙ 为对应元素相乘，该项计算为：

RACE问题将高维的CNN表征转为低维的权重映射，来降低算力损耗。

该问题为标准二次规划问题，优化方法：

具体求解见：

Eﬃcient projections onto the l 1-ball for learning in high dimensions

Large graph construction for scalable semi-supervised learning

From point to set: Extend the learning of distance metrics

【待阅读】

（4）top-k count 标签估计：

如果两个视频序列属于同一个行人，那么它们在不同的衡量维度上需要非常接近。具体来说，如果未标签序列 x_i 属于行人，需要满足两个条件：

① 应当是距离 x_i 最近的部分anchor之一，定义为：；

② 应当足够大。

定义预测的标签为：

其中表示在中的排名。

【疑问：已经是最近的 k 个最近的anchor了，为什么还要判断是不是最近的 k' 个？】

Experimental Results

（1）实验设置：

① 数据集：PRID-2011，iLIDS-VID，MARS；

② 参数设置：dropou = 0.5；图片resize = 128*256；learning rate(MARS)= 0.003，learning rate(PRID-2011, iLIDS-VID) = 0.01，并每20个epoch下降0.1；k = 15，k’ = 1；λ = 0.1。

（2）实验结果：

论文阅读笔记（二十三）【ECCV2018】：Robust Anchor Embedding for Unsupervised Video Person Re-Identiﬁcation in the Wild的更多相关文章

论文阅读笔记二十三：Learning to Segment Instances in Videos with Spatial Propagation Network（CVPR2017）
论文源址:https://arxiv.org/abs/1709.04609 摘要该文提出了基于深度学习的实例分割框架,主要分为三步,(1)训练一个基于ResNet-101的通用模型,用于分割图像中的 ...
论文阅读笔记二十七：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）
论文源址:https://arxiv.org/abs/1506.01497 tensorflow代码:https://github.com/endernewton/tf-faster-rcnn 室友对 ...
论文阅读笔记三十三：Feature Pyramid Networks for Object Detection(FPN CVPR 2017)
论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要特征金字塔是用于不同尺寸目标检测中的 ...
论文阅读笔记二十五：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要深度卷积网络需要输入 ...
论文阅读笔记二十四：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)
论文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要在PASCAL VOC数据集上,最好的方法的思路是将低级信息与较高层次的上下文信息进 ...
论文阅读笔记二十一：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）
论文源址:https://arxiv.org/abs/1511.07122 tensorflow Github:https://github.com/ndrplz/dilation-tensorflo ...
论文阅读笔记六十三：DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling（CVPR2017）
论文原址:https://arxiv.org/abs/1703.10295 github:https://github.com/lachlants/denet 摘要本文重新定义了目标检测,将其定义为 ...
论文阅读笔记五十三：Libra R-CNN: Towards Balanced Learning for Object Detection(CVPR2019)
论文原址:https://arxiv.org/pdf/1904.02701.pdf github:https://github.com/OceanPang/Libra_R-CNN 摘要相比模型的结构 ...
论文阅读笔记四十三：DeeperLab: Single-Shot Image Parser（CVPR2019）
论文原址:https://arxiv.org/abs/1902.05093 github:https://github.com/lingtengqiu/Deeperlab-pytorch 摘要本文提 ...

随机推荐

用java编写代码实现关机
public static void main(String[] args) { Runtime runtime = Runtime.getRuntime(); try { runtime.exec( ...
python写的用WMI检测windows系统信息的脚本
脚本如下: #!/usr/bin/env python #coding:utf- import wmi import sys,time,platform def get_system_info(os) ...
springmvc中applicationapplicationContext头部代码
<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.spr ...
从数组中找到topK的元素（序号）
问题: 在n个数中找出最大的k个数. 多次求min()或求max() 最简单的方法是对大小为k的数组进行n次求min计算(或者对大小为n的数组进行k次求max计算)最后能够找出最大k个数.复杂度是O( ...
Go语言实现：【剑指offer】左旋转字符串
该题目来源于牛客网<剑指offer>专题. 汇编语言中有一种移位指令叫做循环左移(ROL),现在有个简单的任务,就是用字符串模拟这个指令的运算结果.对于一个给定的字符序列S,请你把其循环左 ...
【Bullet引擎】刚体类 —— btRigidBody
btRigidBody类主要用于刚体数据的计算. 在模拟刚体动画过程中,可以使用btRigidBody类获取所保存的刚体对象,进而控制刚体对象的旋转和位移.进行刚体模拟计算需要经常用到此类. API: ...
从敏捷开发到微服务，maybe再到中台
-- 先说下准备这个的背景: 本来是想让我分享下敏捷开发,可能是听我说为as**搭建并完善了敏捷开发体系的原因吧. 我一般分享一个东西,希望大家能真的理解,而不只是知道. 我不大相信有万能的东西,不希 ...
安装ik分词插件
下载IK安装包 https://github.com/medcl/elasticsearch-analysis-ik https://github.com/medcl/elasticsearch-an ...
《Head first设计模式》之命令模式
命令模式将"请求"封装成对象,以便使用不同的请求.队列或者日志来参数化其他对象.命令模式也支持可撤销的操作. 一个家电公司想邀请你设计一个家电自动化遥控器的API.这个遥控器有7个 ...
MongoDB 复本集搭建
复制集的特点数据一致性主是唯一的,但不是固定的没有MySQL那样的双主结构大多数原则,集群存活节点小于等于二分之一时集群不可写,只可读. 是否能选举出新的主节点,是由当前复制集成员存活量 ...

论文阅读笔记（二十三）【ECCV2018】：Robust Anchor Embedding for Unsupervised Video Person Re-Identiﬁcation in the Wild

论文阅读笔记（二十三）【ECCV2018】：Robust Anchor Embedding for Unsupervised Video Person Re-Identiﬁcation in the Wild的更多相关文章

随机推荐

热门专题