1.针对的问题

　　现有的方法主要遵循于通过优化视频级分类目标来实现定位的方式，这些方法大多忽略了视频之间丰富的时序对比关系，因此在分类学习和分类-定位自适应的过程中面临着极大的模糊性。（1）在弱监督设置中没有足够的标注，学习的分类器本身没有足够的区别和鲁棒性，导致了动作-背景分离的困难。（2）由于分类和定位之间存在较大的任务差距，学习到的分类器通常专注于易于区分的片段，而忽略那些在定位中不突出的片段。因此，局部的时间序列往往是不完整和不精确的。

2.主要贡献

　　•引入了第一个用于鲁棒WSAL的区分顺序到顺序的比较框架，以解决缺乏能够利用细粒度时间差别的帧级标注的问题。

　　•设计了一个统一的可导动态规划公式，包括细粒度序列远程学习和最长公共子序列挖掘，该公式具有(1)区分动作背景分离和(2)缓解分类与定位之间的任务差距的优点。

　　•在两个常用基准上的广泛实验结果表明，提出的FTCL算法具有良好的性能。所提出的策略是与模型无关的，并且不具有干扰性，因此可以在现有方法之上发挥补充作用，从而始终如一地提高动作定位性能。

3.方法

　　本文认为通过考虑上下文的序列到序列对比可以为弱监督时序行为定位提供本质的归纳偏置并帮助识别连续的行为片段。在一个可导的动态规划框架下，设计了两个互补的对比目标，其中包括细粒度序列距离(FSD)对比和最长公共子序列(LCS)对比，其中，第一个通过使用匹配、插入和删除操作符来考虑各种动作/背景建议之间的关系，第二个挖掘两个视频之间最长的公共子序列。两种对比模块可以相互增强，共同享受区分动作-背景分离的优点，减轻分类和定位之间的任务差距。

　　细粒度序列距离(FSD)对比：考虑动作背景的分离，提高学习动作分类器的识别能力，其中将可导的匹配，插入和删除操作符用于序列之间的相似性计算，具体来说，使用学习到的CAS，可以生成各种行动/背景建议，其中行动建议U包含具有高行动激活的片段，而背景建议V恰恰相反。对于长度为M和N的两个建议序列，U=[u₁，...，u_i，...，u_M]∈R^D×M和V=[v₁，...，v_i，...，v_M]∈R^D×N，通过以下递归对它们的相似性进行评估：

　　其中，子序列相似度得分S(i，j)在第一个序列U的位置i和第二个序列V的位置j上被计算。S(0，：)和S(：，0)被初始化为零。直观地说，在位置(i，j)中，如果ui和vj相匹配，则序列相似性得分应该增加。如果执行插入或删除操作，应该对相似度评分进行惩罚。为此，学习了三种类型的残差值(标量)，即µ_i,j，g_i,j和h_i,j。以µ_i,j，g_i,j为例，计算方法如下：

　　其中，∆^µ_i,j=[f_µ(u_i)，f_µ(v_j)]和∆^g_i,j的定义类似。f_µ(·)，f_g(·)和f_h(·)是三个全连接的层。利用这些函数来模拟不同的操作，包括匹配，插入和删除。σ_µ和σ_g是获取残差值的激活函数。由此，保证了S(i，j)是两个序列之间的最优相似度得分，显然，来自同一类别的两个行动建议之间的相似性应该大于行动建议和背景建议之间的相似性。通过利用这种关系，设计了FSD对比损失如下：

　　其中，ℓ(x)表示ranking loss。下标[UV]表示来自同一类别的两个计算序列到序列相似度的动作建议s=S(M，N)。U'和V'代表背景建议。由于等式(2)中的max操作是不可导的，所以作者进行了平滑，将其换为

　　最长公共子序列(LCS)对比：在两个未裁剪的视频X和Z之间挖掘最长公共子序列(LCS)，从而提高学习到的动作建议的一致性。这个想法背后的直觉是双重的:(1)如果两个视频没有共享相同的动作，那么X和Z之间的LCS长度应该很小。显然，由于两种类型的动作背景不同，差异较大，两个单独视频的片段很可能高度不一致，导致LCS较短。(2)同样的，如果两个视频共享同一个动作，那么它们的LCS很容易长，因为同一类别的动作实例是由相似的时间动作片段组成的。理想情况下，这种情况下的LCS与较短的动作实例一样长。计算公式如下：

　　其中，τ是一个阈值，它决定了视频X的第i个片段和视频Z的第j个片段是否匹配。c_i,j=cos(x_i，z_j)是片段x_i和z_j的余弦相似性。得到的结果值r = R(T, T)表示两个视频之间的最长公共子序列的soft长度。使用交叉熵损失作为约束。

　　讨论：其实FSD和LCS都是对序列进行对比，都有计算相似性的过程，那么是否可以只用其中一个呢？论文中特意进行了说明和实验。(1)考虑到不同类型的序列，它们的目标是不同的。我们利用FSD学习强大的行动背景分离，同时采用不同的动作和背景建议。而LCS对比性是为了在两个未裁剪的视频中找到一致的动作实例，从而实现分类到定位的适应。(2)二者具有不同的对比水平。在FSD对比中，不同的动作/背景对之间的关系被考虑，而在LCS中，对比是在一对未经裁剪的视频中进行的，而且实验也证明单独使用一种方法的性能较差。

　　FTCL架构和简单示例如下：

　　首先对输入视频采用预先训练好的I3D模型，得到RGB和光流特征。然后利用嵌入模块在视频级监督下提取片段级特征。再经过两个左右两种方法进行优化。

搜索

复制

FTCL：Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization概述的更多相关文章

[CVPR2017] Deep Self-Taught Learning for Weakly Supervised Object Localization 论文笔记
http://openaccess.thecvf.com/content_cvpr_2017/papers/Jie_Deep_Self-Taught_Learning_CVPR_2017_paper. ...
[paper reading] C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection CVPR2019
MIL陷入局部最优,检测到局部,无法完整的检测到物体.将instance划分为空间相关和类别相关的子集.在这些子集中定义一系列平滑的损失近似代替原损失函数,优化这些平滑损失. C-MIL learns ...
Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]
研究内容:弱监督时域动作定位结果:Thumos14 mAP0.5 = 27.0 ActivityNet1.3 mAP0.5 = 34.5 从结果可以看出弱监督这种瞎猜的方式可以PK掉早些时候的一些全 ...
【PPT】 Least squares temporal difference learning
最小二次方时序差分学习原文地址: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd= ...
PP: Multi-Horizon Time Series Forecasting with Temporal Attention Learning
Problem: multi-horizon probabilistic forecasting tasks; Propose an end-to-end framework for multi-ho ...
论文解读（PCL）《Prototypical Contrastive Learning of Unsupervised Representations》
论文标题:Prototypical Contrastive Learning of Unsupervised Representations 论文方向:图像领域,提出原型对比学习,效果远超MoCo和S ...
论文解读（SimCLR）《A Simple Framework for Contrastive Learning of Visual Representations》
1 题目 <A Simple Framework for Contrastive Learning of Visual Representations> 作者: Ting Chen, Si ...
Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method
论文阅读: Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Sel ...
Robust Pre-Training by Adversarial Contrastive Learning
目录概主要内容代码 Jiang Z., Chen T., Chen T. & Wang Z. Robust Pre-Training by Adversarial Contrastive ...
Adversarial Self-Supervised Contrastive Learning
目录概主要内容 Linear Part 代码 Kim M., Tack J. & Hwang S. Adversarial Self-Supervised Contrastive Lear ...

随机推荐

3、swagger调试
Swagger: 1.将项目中所有的接口展现在页面上,这样后端程序员就不需要专门为前端使用者编写专门的接口文档: 2.当接口更新之后,只需要修改代码中的Swagger描述就可以实时生成新的接口文档了, ...
day02-Promise
Promise 1.Promise基本介绍 Promise是异步编程的一种解决方案,可以解决传统Ajax回调函数嵌套问题. 传统的Ajax异步调用在需要多个操作的时候,会导致多个回调函数嵌套,导致代码 ...
02-Sed语法介绍
1 Sed语法介绍介绍Sed支持的基本命令及其命令行语法,Sed可以通过以下两种形式进行调用: 学习sed命令使用之前,需要掌握正则表达式的用法. sed [-n] [-e] 'commands' ...
DVWA系列2：SQL Injection
DVWA系列2:SQL Injection 前言 SQL 注入是比较常见的攻击类型,之前一直听说过,也尝试看过一些教程,但其中的单引号,字符串拼接等感觉有点抽象,不知道为什么要这么做.这次就使用 DV ...
数学 in OI-数论-1
数论 \(1\) \(1.\) 质数定义就不说了吧. 性质 \(\&\) 定理质数 \(p\) 有且仅有两个质因子 \(1\) 和 \(p\) . 质数有无穷个. \([1,\, n]\) ...
C# 托管堆遭破坏问题溯源分析
一:背景 1. 讲故事年前遇到了好几例托管堆被损坏的案例,有些运气好一些,从被破坏的托管堆内存现场能观测出大概是什么问题,但更多的情况下是无法做出准确判断的,原因就在于生成的dump是第二现场,借用 ...
P6327 区间加区间sin和题解
P6327 区间加区间sin和题解题目描述给出一个长度为 \(n\) 的整数序列 \(a_1,a_2,\ldots,a_n\),进行 \(m\) 次操作,操作分为两类. 操作 \(1\):给出 ...
C/C++内存对齐原则
C/C++内存对齐 what && why 当用户自定义类型时(struct 或 class),编译器会自动计算该类型占用的字节数. C/C++ 为什么要内存对齐?我道行太浅,摘抄了网 ...
Pulsar负载均衡原理及优化
前言前段时间我们在升级 Pulsar 版本的时候发现升级后最后一个节点始终没有流量. 虽然对业务使用没有任何影响,但负载不均会导致资源的浪费. 和同事沟通后得知之前的升级也会出现这样的情况,最终还是 ...
线上排查：内存异常使用导致full gc频繁
线上排查:内存异常使用导致full gc频繁问题系统日常巡检发现,应用线上出现频繁full gc 现象应用线上出现频繁full gc 排查过程分析dump 拉dump文件:小插曲:dump时如 ...

FTCL：Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization概述

1.针对的问题

2.主要贡献

3.方法

FTCL：Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization概述的更多相关文章

随机推荐

热门专题