Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition

Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition

ICCV 2019 (oral)

2019-08-01 15:08:19

Paper：https://arxiv.org/abs/1907.13369

1. Backgroud and Motivation:

本文提出一种基于多智能体强化学习的未裁剪视频识别模型，来自适应的从未裁剪视频中，截取出样本视频帧进行行为识别。具体的示意图如下所示：

2. Architecture

2.1 Context-aware Observation Network:

这个 context-aware observation network 是一个基础的观测网络，随后是 context network。这个基础的观测网络是用于编码选中的视频帧的视频信息，输出为 feature vector，作为 context network 的输入。与 single-agent 系统不同的是，multi-agent 的系统，每一个智能体的选择不仅依赖于 local environment state，而且受到 context information 的影响。所以，我们设计了一个 context-aware module，来维持一个 joint internal state of agents，用一个 RNN 网络将 history context information 进行总结。为了能够使之更加有效的工作，每一个智能体 only accesses context information from its 2M neighboring agents but not from all agents. 正式的来说，所有的时间步骤 t，智能体 a 观测到一个组合的状态 $s_t^a$ 及其之前的 hidden state $h_{t-1}^a$ 作为 context module 的输入，然后产生其当前的 hidden states：

2.2 Policy Network：

作者采用 fc + softmax function 作为 policy network。在每一个时间步骤 t，每一个智能体 a，根据策略网络产生的概率分布，选择一个动作 $u_t^a$ 来执行。动作集合是一个离散的空间 {moving ahead, moving back and staying}。并且设置一定的步幅。当所有的智能体都选择 staying 的时候，意味着该停止了。

2.3 Classification Network：

就是将选中的视频帧进行 action 的分类。

3. Objectives

本文将同时进行奖励最大化的优化以及分类网络的优化。

3.1 MARL Objective：

Reward function: 奖励函数反应了 agents 选择动作的好坏。当所有的智能体都选择动作时，每一个时刻 t，每一个智能体基于分类的概率 $p_t^a$ 得到了其各自的奖励 $r_t^a$ 。给予 agent 奖励可以促使其知道更加具有信息量的 frame，从而一步一步的改善正确预测的概率。所以，作者设计了一个简单的奖励函数，鼓励模型增加其 confidence。特定的，对于第 t 个时间步骤来说，agent a 接收的奖励按照如下的方式进行计算：

其中，$p_{t,c}^a$ 代表了智能体 a 在时刻 t 模型将其预测为 class c 的概率，gt 是视频的 ground truth label。所有的智能体共享同一个 reward function。考虑到序列决策的场景，考虑累积折扣回报是更加合适的，即：将来的奖励对当前的步骤贡献更小一些。特别的，在时刻 t，对于智能体 a 来说，折扣的回报可以计算如下：

Policy Gradient: 服从 REINFORCE 算法，作者将目标函数设置为：

在本文的情况下，学习网络参数使其可以最大化上述公式，其梯度为：

这变成了一个 non-trivial optimization problem, 由于 action sequence space 的维度过高。REINFORCE 通过蒙特卡洛采样的方式，进行梯度的估计：

然后，我们可以利用随机梯度下降的方式，来最小化下面的损失：

Maximum entropy:

为了避免让策略迅速变的 deterministic，研究者考虑将 entropy regularization 技术引入到 DRL 算法中，以鼓励探索。更大的熵，agent 就会更加偏向于探索其他动作。所以，我们利用 policy 的 entropy 来进行正则：

所以，MARL 总得损失是上述两个损失函数的加和：

3.2 Classification Objective :

作者用 Cross-entropy loss 来最小化 gt 和 prediction p 之间的 KL-散度：

最终，我们优化组合损失，即：

4. Experiments：

Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition的更多相关文章

[转]Deep Reinforcement Learning Based Trading Application at JP Morgan Chase
Deep Reinforcement Learning Based Trading Application at JP Morgan Chase https://medium.com/@ranko.m ...
[转]Introduction to Learning to Trade with Reinforcement Learning
Introduction to Learning to Trade with Reinforcement Learning http://www.wildml.com/2018/02/introduc ...
Introduction to Learning to Trade with Reinforcement Learning
http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/ The academic ...
【资料总结】| Deep Reinforcement Learning 深度强化学习
在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强 ...
(转) Deep Reinforcement Learning: Pong from Pixels
Andrej Karpathy blog About Hacker's guide to Neural Networks Deep Reinforcement Learning: Pong from ...
(转) Playing FPS games with deep reinforcement learning
Playing FPS games with deep reinforcement learning 博文转自:https://blog.acolyer.org/2016/11/23/playing- ...
(转) Deep Learning Research Review Week 2: Reinforcement Learning
Deep Learning Research Review Week 2: Reinforcement Learning 转载自: https://adeshpande3.github.io/ad ...
论文笔记：Learning how to Active Learn: A Deep Reinforcement Learning Approach
Learning how to Active Learn: A Deep Reinforcement Learning Approach 2018-03-11 12:56:04 1. Introduc ...
(zhuan) Evolution Strategies as a Scalable Alternative to Reinforcement Learning
Evolution Strategies as a Scalable Alternative to Reinforcement Learning this blog from: https://blo ...

随机推荐

LeetCode刷题：Reverse Words in a String（翻转字符串中的单词）
题目 Given an input string, reverse the string word by word. For example, Given s = "the sky is b ...
robotframework Run keyword if ELSE 用法
1.Run keyword if 后面必须跟关键字 ,可以是你自己的, 也可以是框架自带的 2.ELSE 必须是大写,
Flask入门很轻松（二）
转载请在文章开头附上原文链接地址:https://www.cnblogs.com/Sunzz/p/10959454.html 请求钩子在客户端和服务器交互的过程中,有些准备工作或扫尾工作需要处理,比 ...
关于 Spring AOP (AspectJ) 你该知晓的一切
版权声明:本文为CSDN博主「zejian_」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明.原文链接:https://blog.csdn.net/javazej ...
Redis开发与运维学习笔记
<Redis开发与运维>读书笔记一.初始Redis 1.Redis特性与优点速度快.redis所有数据都存放于内存:是用C语言实现,更加贴近硬件:使用了单线程架构,避免了多线程竞争 ...
X2E车载数据记录仪
随着智能驾驶及网联技术深入应用,汽车中传输的数据量与日俱增,包括多种总线数据.视频数据.雷达数据.定位数据等等.据悉,高级别智能驾驶汽车中每秒传输的总线数据就达到G比特级别.而从产品开 ...
在markdown中插入github仓库中的图片
右击github中的图片,获得链接: https://github.com/nxf75/ML_Library/blob/master/Hadoop/Haddop%E6%A1%86%E6%9E%B6.p ...
【云栖社区002-二分估值法】要求不用数学库，求 sqrt (2)精确到小数点后10位(Java版)
如题初步审题的时候,想到的是暴力搜索:初步设置一个合法的种子,依次按照1e-2,1e-3,1e-4,1e-5,1e-6 , 1e-7...暴力搜索,额,就是太麻烦了. 打比赛搜索写多了,一看见题目就 ...
Linux UART介绍
1. UART介绍 UART是一类tty设备, 是一种串行端口终端, 具体可参考<UART接口介绍>在Linux中UART属于tty驱动的一部分, 具体实现包括驱动抽象层和硬件实现层本文 ...
使用Apache commons-maths3-3.6.1.jar包，在hive上执行获取最大值的操作
udf是对hive上的每行(单行)数据操作,现在我要实现对hive上的一列数据操作,udf函数已经满足不了我的要求了,使用udaf对hive的一列求最大值: 代码如下: package com; im ...

Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition

Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition的更多相关文章

随机推荐

热门专题