1.针对的问题

  在没有帧级注释的情况下,W-TAL方法很难识别假阳性的动作建议,并生成具有精确时间边界的动作建议。具体来说,之前的W-TAL方法所面临的最关键的问题之一是缺乏排除假阳性动作建议的能力。如果没有帧级注释,它们会定位不一定与视频级标签对应的动作示例。例如,模型可能仅通过检查场景中是否存在水来错误定位动作“游泳”。因此,有必要利用更细粒度的监督来指导学习过程。另一个问题在于动作建议的制定。在以前的方法中,动作建议是通过使用一个固定的阈值对激活序列进行阈值化来生成的,该阈值是根据经验预设的。它对动作建议的质量有重大影响:高阈值可能会导致动作建议不完整,而低阈值可能会带来更多误报。但如何走出这一困境却鲜有研究。

2.主要贡献

  -为W-TAL引入了双流共识网络(TSCN)。所提出的TSCN使用迭代细化训练方法,其中由前一迭代中的late fusion注意力序列生成的伪ground-truth可以为当前迭代提供更精确的帧级监督。

  –提出了一个注意力归一化损失函数,它迫使注意力像二进制选择一样,从而提高了阈值方法生成的动作建议的质量。

  –在两个标准baseline(即THUMOS14和ActivityNet)上进行了大量实验,以证明所提出方法的有效性。TSCN显著优于之前最先进的W-TAL方法,甚至与最近一些完全监督的TAL方法取得了相当的结果。

3.方法

  提出的TSCN具有一种迭代优化训练方法,其中帧级伪ground-truth被迭代更新,并用于为改进的模型训练和误报动作建议消除提供帧级监督。此外,提出了一种新的注意力归一化损失,以鼓励预测的注意力权重接近二进制选择,并促进动作实例边界的精确定位。

  模型流程如下:

  (1)给定一个分为T个非重叠片段的视频,特征提取模块使用预训练好的网络提取RGB和光流特征{fRGB,i}Ti=1和{fflow,i}Ti=1

  (2)双流base模型执行视频级动作分类,然后使用帧级伪ground-truth迭代地细化base模型。将两种模式的特征分别输入到两个独立的base模型中,两个base模型使用相同的体系结构,但不共享参数。由于这些特征最初不是针对W-TAL任务进行训练的,首先连接T个输入特征{fi}Ti=1,并使用一组时间卷积层生成一组新特征{xi}}Ti=1,再输入conv层+FC层得到注意力值Ai∈(0,1)以测量第i个片段包含一个动作的可能性,引入了一个注意力归一化项来强制注意力接近极值,然后,对特征序列进行注意力加权池化,生成单个前景特征xfg,并将其输入FC softmax层,得到视频级预测。分类损失函数Lcls被定义为标准的交叉熵损失。

  (3)伪ground-truth生成,用一个帧级伪ground-truth对双流base模型进行迭代优化,具体来说,将整个训练过程划分为几个迭代。在迭代0中,只有视频级别的标签用于训练。在迭代n+1时,在迭代n生成帧级伪ground-truth,并为当前迭代提供帧级监督。作者介绍了两种伪ground-truth生成方法:(1)soft伪ground-truth,直接使用融合注意力值作为伪标签,它包含了一个片段是前景动作的概率,但也增加了模型的不确定性。(2)hard伪ground-truth,在注意力序列上施加阈值以生成一个二进制序列,它消除了不确定性,提供了更强的监督,但引入了超参数。

Two-Stream Consensus Network for Weakly-Supervised Temporal Action Localization概述的更多相关文章

  1. Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]

    研究内容:弱监督时域动作定位 结果:Thumos14 mAP0.5 = 27.0 ActivityNet1.3 mAP0.5 = 34.5 从结果可以看出弱监督这种瞎猜的方式可以PK掉早些时候的一些全 ...

  2. 2018年发表论文阅读:Convolutional Simplex Projection Network for Weakly Supervised Semantic Segmentation

    记笔记目的:刻意地.有意地整理其思路,综合对比,以求借鉴.他山之石,可以攻玉. <Convolutional Simplex Projection Network for Weakly Supe ...

  3. LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization [Paper Reading]

    Motivation: 阈值分割的阈值并没有通过模型训练学出来,而是凭借主观经验设置,本文通过与背景得分比较提取对应的proposal,不用阈值的另一篇文章是Shou Zheng的AutoLoc,通过 ...

  4. TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals(ICCV2017)

    Motivation 实现快速和准确地抽取出视频中的语义片段 Proposed Method -提出了TURN模型预测proposal并用temporal coordinate regression来 ...

  5. 论文笔记之 SST: Single-Stream Temporal Action Proposals

    SST: Single-Stream Temporal Action Proposals 2017-06-11 14:28:00 本文提出一种 时间维度上的 proposal 方法,进行行为的识别.本 ...

  6. SST:Single-Stream Temporal Action Proposals论文笔记

    SST:Single-Stream Temporal Action Proposals 这是本仙女认认真真读完且把算法全部读懂(其实也不是非常懂)的第一篇论文 CVPR2017 一作 论文写作的动机m ...

  7. [CVPR2017] Deep Self-Taught Learning for Weakly Supervised Object Localization 论文笔记

    http://openaccess.thecvf.com/content_cvpr_2017/papers/Jie_Deep_Self-Taught_Learning_CVPR_2017_paper. ...

  8. [CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记

    p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } p. ...

  9. [CVPR2017] Weakly Supervised Cascaded Convolutional Networks论文笔记

    p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px "Helvetica Neue"; color: #042eee } p. ...

  10. Robust Tracking via Weakly Supervised Ranking SVM

    参考文献:Yancheng Bai and Ming Tang. Robust Tracking via Weakly Supervised Ranking SVM Abstract 通常的算法:ut ...

随机推荐

  1. git prior sync failed; rebase still in progress

    方案一: 将这个git直接删掉,rm common/ -rf 然后再回到项目根目录repo sync 方案二: git rebase --abort

  2. moduleNotFoundError:No module named 'exceptions'

    如果pip install docx 过请先卸载,输入如下指令: pip uninstall docx 方法一: pip install python-docx 方法二: 下载: python_doc ...

  3. redhat安装opencv2.4.13

    1.官网下载OpenCV2.4.5  http://opencv.org/ 解压到home/用户名/opencv2.4.5 2.安装cmake $sudo apt-get install cmake ...

  4. Python 使用mysql.connector、pymysql和 MYSQLdb(MysqlClient)操作MySQL数据库

    MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品.MySQL 是最流行的关系型数据库管理系统之一.本文主要介绍安装mysql.connector,. ...

  5. SwiftUI笔记

    @Published 标记对象定义的属性变更可以被监听,当对应字段变化时会触发对象 objectWillChange 通知,订阅了该属性的View也会收到值改变的通知 /// A type that ...

  6. 【Pr】如何裁剪视频得页面?

    [Pr]如何裁剪视频得页面? 选择视频轨道 | 效果 | 裁剪(可以搜索) | 调整上下左右需要裁剪的大小 | 选择缩放,去掉黑边

  7. 4.git的指令应用

    1.stash 应用:   应用场景:在当前分支开发代码,开发到一半,代码没有提交,你想在当前分支的基础上切换到别的分支:或者创建新的分支,所以需要把当前开发的内容进行藏匿起来. 1.1藏匿指令:   ...

  8. WebSocket服务

    package com.sxsoft.admin.Component; import com.alibaba.fastjson.JSON; import io.netty.handler.codec. ...

  9. easypoi多sheet导出

    以前一直接触的是单sheet导出,这次的需求换成了多sheet导出,算是一个难点所以得记录一下 底层关键的代码就是: private static void defaultExport(List< ...

  10. VMware vSphere Client(4.1/5.0/5.1/5.5/6.0) 客户端下载地址

    前言 VMware作为商业虚拟化方案的佼佼者不知不觉中已经成长为一颗苍天大树,面对OpenStack和Docker的夹击希望VMware可以继续勇往直前,从vSphere 6.5开始终于彻底告别Cli ...