Host–Parasite(主从关系): Graph LSTM-in-LSTM for Group Activity Recognition
This article aims to tackle the problem of group activity recognition in the multiple-person scene.
1)以往模型忽略:most long short-term memory (LSTM)-based methods first learn the person-level action representations by several LSTMs and then integrate all the person-level action representations into the following LSTM to learn the group-level activity representation.
从个体动作层面-->到群体层面。a two-stage strategy。在对话中也是这样,HRED。
但是忽略了时空层面的主从关系?
which neglects the “host-parasite” relationship between the group-level activity (“host”) and person-level actions (“parasite”) in spatiotemporal space.
2)propose a novel graph LSTM-in-LSTM (GLIL) for group activity recognition by modeling the person-level actions and group-level activity simultaneously.
“host-parasite” architecture, which can be seen as several person LSTMs (P-LSTMs) in the local view or a graph LSTM(G-LSTM) in the global view.
The training framework of GLIL is shown in Fig. 2, which stacks:
- a pretrained CNN, :extract the static features (i.e., CNN features) of each person on the person’s bounding boxes.
- a residual LSTM (R-LSTM), :learn the person level residual features of each person from their static features;the person-level temporal features
- the GLIL,
- P-LSTM in GLIL learns and updates the person-level motion state of one person under the interaction with other persons,
- a G-LSTM in GLIL selectively aggregates the person-level motion information from P-LSTM into a new group-level memory cell over time.
Finally, we feed the group-level activity representation output from GLIL into the softmax layer at each time step and then average the outputs of all the softmax classifiers to infer the class of group activity.
考虑了两种类型的邻居:in the spatial space and the temporal space?
1)时间维度上:有两条连边,与前一时刻和后一时刻。
2)空间维度上:有n-1条连边,与空间上的所有邻居结点。
本文最大的创新点在于:对于graph structure 的时空结构,设计了对于结点的LSTM更新(考虑了邻居结点的信息聚合(邻居信息的交互),对LSTM的影响,获得记忆状态和结点表示h);对于图结构的表示,设计了关于每个结点的记忆状态C的聚合(利用了上一时刻的隐状态计算和单人的行为和群体行为的相关性),然后得到整个图,即群体行为的表示h’。从而预测。
在空间维度上,利用的很充分,对于每个结点的表示更新都考虑了当前,上一时刻,邻居。
在时间维度上,利用了上一时刻的h,c
重点关注:
1)P-LSTMs: the interactions among persons under a new interaction gate
For a group activity, each video frame contains multiple-persons’ motion information, which is interrelated in both the spatial space and temporal space. In this article, we consider constructing a graph to explore such relations among persons’ motion. Specifically, the nodes of the graph can represent the state of data, and the edges can capture the spatiotemporal interactions among nodes.
对于一个群体活动,每个视频帧都包含着多人的运动信息,这些信息在空间空间和时间空间上都是相互关联的。在本文中,我们考虑构造一个图来探讨人的运动之间的这种关系。具体来说,图的节点可以代表数据的状态,图的边可以捕捉节点之间的时空交互。
we add a residual connection across the input and the output of LSTM
Such residual connection can provide better flexibility to deal with the gradient vanishing or exploding in the learning process
In the local view, GLIL becomes P-LSTMs that model the person-level motions by the neighboring interaction under an interaction gate.
邻居间的相互作用(通过一个来interaction gate呈现)
对Person-Level的动作表示:
三种输入:当前时刻的结点状态d, 上一时刻结点的隐藏层状态h,邻居结点的上一时刻状态的组合。
计算四个门: 输入门,遗忘门,输出门,邻居遗忘门。
最终计算:当前时刻的记忆状态:memory cell Ct,( cts is the person-level memory cell at time step t.)-->ht
将邻居的隐状态加权求和。Interaction Gate:利用两个人的特征相似度和位置相似度来衡量他们的互动。quantify the interaction between two persons at time step t
Host Architecture of GLIL
what type of person-level motion is useful to infer the class of group activity?
we can set a gate to control what types of person-level motion information would enter or leave the group-level memory cell over time.
we design a new role gate Pi_ts at time step t to allow the person-level motion of the sth person to enter or level group-level memory cell.
如何区别对待,衡量个人行为对群体行为的相关性,因此,我们测量了在前一个时间步上群体级活动表示和人级行动表示的标签推理的一致性->添加一个门:
Host–Parasite(主从关系): Graph LSTM-in-LSTM for Group Activity Recognition的更多相关文章
- Angular2入门系列教程3-多个组件,主从关系
上一篇 Angular2项目初体验-编写自己的第一个组件 好了,前面简单介绍了Angular2的基本开发,并且写了一个非常简单的组件,这篇文章我们将要学会编写多个组件并且有主从关系 现在,假设我们要做 ...
- [转载]窗口之间的主从关系与Z-Order
窗口之间的主从关系与Z-Order 原文地址:http://www.cnblogs.com/dhatbj/p/3288152.html说明:这是本人2008年写的一篇旧文,从未公开发表过.其中除了一小 ...
- MySQL主从关系设置(转)
来源:LAMP兄弟连 作者:李恺 http://***/php/bencandy.php?fid=70&id=635 要做MySQL主从关系的设置,那么就得有两台MySQL主机.所以在开始之前 ...
- 单向LSTM笔记, LSTM做minist数据集分类
单向LSTM笔记, LSTM做minist数据集分类 先介绍下torch.nn.LSTM()这个API 1.input_size: 每一个时步(time_step)输入到lstm单元的维度.(实际输入 ...
- redis迁移复制数据,主从关系建立实践
装redis的机器出了点问题,需要转移数据然后初始化系统,然后我就研究了下redis的数据复制,发现了slaveof 192.168.0.1 6379这个命令,开始踩下这个坑 首先要新的服务器上进入r ...
- 太深了,梯度传不下去,于是有了highway。 干脆连highway的参数都不要,直接变残差,于是有了ResNet。 强行稳定参数的均值和方差,于是有了BatchNorm。RNN梯度不稳定,于是加几个通路和门控,于是有了LSTM。 LSTM简化一下,有了GRU。
请简述神经网络的发展史sigmoid会饱和,造成梯度消失.于是有了ReLU.ReLU负半轴是死区,造成梯度变0.于是有了LeakyReLU,PReLU.强调梯度和权值分布的稳定性,由此有了ELU,以及 ...
- 高强度学习训练第六天总结:Redis主从关系总结
Redis主从复制机制 1.读写分离的好处 性能优化:主服务器专注于写操作,可以更适合写入数据的模式工作:同样,从服务器专注于读操作,可以用更适合读取数据的模式工作. 强化数据安全,避免单点故障:由于 ...
- 在从myql服务器上 取消主从关系和重新构建主从关系
取消主从关系 mysql -uroot -p mysql>show slave status\G; 查看主库是否为之前的ip mysql>change master to master_h ...
- C# WinfForm 控件之dev报表 XtraReport (四) 动态绑定主从关系表
一般的单据都是由主从关系的,比如部门与人员.单据表头与表身.仓库与存货.分类与档案等等 所以主从关系是报表用的最多的 1.准备数据库 简单方便 --主表 create table RdRecord ( ...
随机推荐
- ElasticSearch7.3学习(二十一)----Filter与Query对比、使用explain关键字分析语法
1.数据准备 首先创建book索引 PUT /book/ { "settings": { "number_of_shards": 1, "number ...
- FileNotFoundError: [Errno 2] No such file or directory: 'image/1.jpg'问题解决
FileNotFoundError: [Errno 2] No such file or directory: 'image/1.jpg'问题 最近在学习爬虫,想爬一些图片并保存到本地,但是在下载图片 ...
- ubuntu 18及以上版本配置IP的方法,你get了吗
本文讲讲 Ubuntu 18 及以上版本配置 IP 的方法,为什么它值得一讲,因为以 Ubuntu 16 为首的版本的配置方法已经不适用了,如果你还不知道,那本文正好 get 一个新技能. Ubunt ...
- JVM探究
1.JVM探究 请你谈谈你对JVM的理解?java8虚拟机和之前的变化更新? 什么是OOM,什么是栈溢出StackOverFlowError?怎么分析? JVM的常用调优参数有哪些? 内存快照如何抓取 ...
- 这些 Shell 分析服务器日志命令集锦,收藏好
关注「开源Linux」,选择"设为星标" 回复「学习」,有我为您特别筛选的学习资料~ 自己的小网站跑在阿里云的ECS上面,偶尔也去分析分析自己网站服务器日志,看看网站的访问量.看看 ...
- TCP 协议灵魂 12 问,巩固你的网路底层基础!
点击上方"开源Linux",选择"设为星标" 回复"学习"获取独家整理的学习资料! 先亮出这篇文章的思维导图 TCP 作为传输层的协议,是一 ...
- 面试官给我挖坑:rm删除文件之后,空间就被释放了吗?
在Linux,你是不是曾经天真的以为,使用rm删除一个文件,占用的空间就释放了?事情可能不是常常如人意. 产生一个指定大小的随机内容文件 我们先看一下当前各个挂载目录的空间大小: $ df -h /d ...
- JS 一些概念
JS 内存机制 基本类型: String | Boolean | Undefined | Number | Nll | Symbol 数据保存在"栈"--先进后出. 数据类型: A ...
- 那些我懵懵懂懂的js
1.this 如果说this是代表当前对象,而js中,除原始值(var str = "Leonie",值Leonie是不能改变的,它就是一个字符串,如var num = 4, 4也 ...
- 公司为什么要使用OKR,目的是什么?
原创不易,求分享.求一键三连 站在公司角度,会有一些诉求: 想知道每个人在干什么,干得怎么样: 想知道如何把更多的人卷起来: 人是不想被管束的,无论是想"度量我"还是想卷我,都是我 ...