Activity Recognition行为识别

暑假听了computer vision的一个Summer School，里面Jason J. Corso讲了他们运用Low-Mid-High层次结构进行Video Understanding 和 Activity Recognition的方法，受益颇深，在这里把他的方法总结一下:

-------------------------------------------------------------------------------------------------

1. 层次结构表示：

底层part 重用
每个object都是一个由有向和无向边连接起来的混合图
底层通过非线性学习让原子节点形成时空线、平面和区域

人的活动呢，就是这些object在中层和高层连接的混合图

-------------------------------------------------------------------------------------------------

2. Motion Perception——STS

Different action stimulate different subpopulation of cells.

-------------------------------------------------------------------------------------------------

3. Activity Recognition

Corso的方法：

Low-Level：底层最effective的做法是Bag of Features，特征为bottom-up / low level的时空特征，随着时间和层次不断update。通过模版进行底层object检测；
Mid-Level：中间层从images中检测、跟踪2D骨架pose，并通过背景内容分析动态pose；
High-Level：高层活动组合方法为，将不同时间点的feature组成时间-概率模型。时间上进行feature的时空跟踪，概率上根据组成语法进行概率模型的组合。
Recognition的另一种表示方法：Segmentation

思想：建立Space-Time Patch Descriptors，组成visual Words直方图，建立多通道分类器。

找出shikongHarris角点：

要求在feature上进行Densely Sample而非Sparse Sample。

提取Action Feature：f，用HOG/HOF描述

Space-Time Patch描述子形成histogram。每个histogram，是特征点在x，y，t三个分量上的直方图。

但是采用HOG、HOF存在问题，就是只能从前后帧去看，而不能考虑整个球的特征变化。出于这一想法，提出了HOG3D, 该特征在BMVC08中有文章进行具体描述，此处不予赘述，大家有兴趣去看文章吧。

-------------------------------------------------------------------------------------------------

4. 行为轨迹

采用 KLT: Kanade-Lucas-Tomasi Feature Tracker 进行特征点的跟踪，可作为局部特征检测的辅助手段。

Trajectories by Local Keypoint Tracking
Use Dense Trajectory（Dense sampling can improve object recognition and action recognition）
CVPR 2011 Wang et al. “Action Recognition by Dense Trajectories.”中提出了一种方法，用一个单密度光流场跟踪轨迹
用HOG/HOF/MBH进行轨迹点描述

-------------------------------------------------------------------------------------------------

5. Action Bank

图中所示为Action bank的基本思想<CVPR 2012: Action Bank: A High-Level Representation of Activity in Video>

Action bank :

记录在不同scale和viewpoints的一个大action detector集合
在Ns个scales上进行检测，action bank上有Na个detector，每组action-scale上有1^3+2^3+4^3=73维向量。所以action bank特征向量共有Na*Ns*73维(关于73怎么来的可以详细参考《Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories》)
实际做的时候采用1-2个scale上的detector

二维图像识别问题中，object bank的分bin统计方法，视频中的action bank就是搞成三维统计（加一维时间）

classifier 使用SVM分类器：

e.g. 对于打篮球这个action，根据高层表现，将jumping ,throwing, running 加入正样本，将biking，fencing，drumming加入负样本，用SVM进行打篮球二类分类训练。

PS: 作者曾使用L1-Regularization 和随机森林，都没有明显的改善。

实现Action Bank的建立：

1. 选取UCF上的50个action，KTH上6个action和visint.org上的digging action，组成205 templates totally

2. 每个action选择3-6个不同视角、style或运动节奏的examples

3. 平均分辨率：50×120pixel；40-50frames/example

简单的说呢，就是根据不同视角、style和运动节奏来描述一个templates，由此组成了205个模版，描述57个action。

关于模版

1. 只要一个新的视点/运动节奏/style被找到了，就选择该模板

2. 每个template都由人工裁剪到时空范围内都有human action的大小

Action Bank分类结果：

-------------------------------------------------------------------------------------------------

6. 基于Human Pose方法的Activity 识别

将人分为不同part，进行各部分的姿势估计可以清晰的进行model描述。

3D Human Pose Estimation:

-------------------------------------------------------------------------------------------------

7. 基于Parts的Human Pose Estimation

模型结合了局部appearance和对称结构，有多篇文章涉及模型估计：

Pictorial Structures (Fischler & Elschlager 73, Felzenswalb and Huttenlocher 00)
Cardboard People (Yu et al 96)
Body Plans (Forsyth & Fleck 97)
Active Appearance Models (Cootes & Taylor 98)
Constellation Models (Burl et all 98, Fergus et al 03)

采用deformable part model

Slide credit: D. Ramanan. Method is from Yang and Ramanan, CVPR 2011.

Result：

Dynamic Pose based Activity Recognition

1. For skeletal pose, we construct a k-means codebook of 1000 visual words from 24-dimensional skeletal pose data using Euclidean distance. For dynamic pose, we construct codebook using our specific distance function.

2. For classification we use many one-versus-one histogram intersection kernel SVMs.

3. 处理dynamic pose和全局context都在动的情况，用 HoG3D and Dense Trajectory可得better效果。

-------------------------------------------------------------------------------------------------

9.视频分割：Beyond Points for Video Understanding

标准方法：

meanshift
Graph-Based
Hierarchical graph-based
Nystrom normalized cuts
Segmentation by weighted aggregation

ECCV 2012 Xu, Xiong and Corso的方法：将视频看做一个流，根据流向和时间上的马尔科夫假设建立一个估计构架，进行video分割。

Segmentation: S = {S1, S2, ... , Sm}

Input Video: V = {V1, V2, ... , Vm}（时间序列上的输入流）

取S*=arg min E(S|V)

在一个layer的分割中采取：

在整个hierarchy中采取同样假设：

from: http://blog.csdn.net/abcjennifer/article/details/7976145

Activity Recognition行为识别的更多相关文章

Heterogeneity Activity Recognition Data Set类别
Heterogeneity Activity Recognition Data Set:https://archive.ics.uci.edu/ml/datasets/Heterogeneity+Ac ...
Host–Parasite（主从关系）: Graph LSTM-in-LSTM for Group Activity Recognition
This article aims to tackle the problem of group activity recognition in the multiple-person scene. ...
Recent papers on Action Recognition | 行为识别最新论文
CVPR2019 1.An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognit ...
Face Recognition 人脸识别该如何测试
猪圈子,一个有个性的订阅号 01 测量人脸识别的主要性能指标有 1.误识率(False;Accept;Rate;FAR):这是将其他人误作指定人员的概率; 2.拒识率(False;RejectRate ...
PokerNet-poker recognition: 扑克识别（6）
文章目录准备最终结果未来改进准备机器: Titan XP 12GB, 64GB RAM, 机器非常强,可靠. 下次有机会购买RTX 2080 Ti 试试最终结果错误率可以达到万分之一,非 ...
基于Deep Learning 的视频识别方法概览
深度学习在最近十来年特别火,几乎是带动AI浪潮的最大贡献者.互联网视频在最近几年也特别火,短视频.视频直播等各种新型UGC模式牢牢抓住了用户的消费心里,成为互联网吸金的又一利器.当这两个火碰在一起,会 ...
行为识别(action recognition)相关资料
转自:http://blog.csdn.net/kezunhai/article/details/50176209 ================华丽分割线=================这部分来 ...
【计算机视觉】行为识别(action recognition)相关资料
================华丽分割线=================这部分来自知乎==================== 链接:http://www.zhihu.com/question/3 ...
android第一行代码－3.activity之间的调用跟数据传递
前面两节所有应用都是同一个activity中的,是时候讲activity之间交互的操作了,此后会涉及到intent这个概念,这也算一个新的里程碑开始. 主要内容包括intent的使用,以及activi ...

随机推荐

android开发，设置listview的高度无效
一般是在item的layout中设置高度 android:layout_height="100dp" 但是发现这样后无效,因此找到解决办法,如下: android:minHeigh ...
SQL Server性能优化（2）获取基本信息
以下常用的SQL语句有利于我们分析数据库的基本信息,然后根据查询的结果进行优化. 1. 查看索引碎片无论何时对基础数据执行插入.更新或删除操作,SQL Server 数据库引擎都会自动维护索 ...
Ext中如何校验TextField的字段被修改了？
场景描述: 在form表单中有个sfzhm的字段,需要去后台进行sfzhm是否重复的校验,一开始使用了blur的event来去后台进行校验,后来发现在焦点离开时,及时数据没有发生变化,也会造 ...
Python大数据依赖包安装
一.安装先安装python2.7.6,win下的numpy这些包需要直接匹配版本,然后安装“numpy-1.8.1-win32-superpack-python2.7”和“scipy-0.16.0- ...
引擎设计跟踪(九.14.2i) Android GLES 3.0 完善
最近把渲染设备对应的GLES的API填上了. 主要有IRenderDevice/IShader/ITexture/IGraphicsResourceManager/IIndexBuffer/IVert ...
Assetbundle的杂七杂八
使用Assetbundle时可能遇到的坑一 24 十一郎未分类 No Comments 转自 http://www．unitymanual．com/blog-3571-132.html 1.Edit ...
理解ASP.NET MVC Framework Action Filters
原文:http://www.cnblogs.com/darkdawn/archive/2009/03/13/1410477.html 本指南主要解释action filters,action filt ...
利用GBDT模型构造新特征具体方法
利用GBDT模型构造新特征具体方法数据挖掘入门与实战公众号: datadw 实际问题中,可直接用于机器学**模型的特征往往并不多.能否从"混乱"的原始log中挖掘到有用的 ...
Linux下进程通信的八种方法
Linux下进程通信的八种方法:管道(pipe),命名管道(FIFO),内存映射(mapped memeory),消息队列(message queue),共享内存(shared memory),信号量 ...
安装mysql之后，存入中文出现乱码
如图显示:安装mysql之后,存入中文出现乱码解决方案: 找到如图的文件位置打开进行如图的修改: 结果:

Activity Recognition行为识别

Activity Recognition行为识别的更多相关文章

随机推荐

热门专题