###《Max-Margin Early Event Detectors》
Paper reading.
#@author: gr
#@date: 2014-03-11
#@email: forgerui@gmail.com
Early Detection Abstract:
- Structured Output SVM
- Processing Sequential Data
- Detecing Facial Expressions, Hand Gestures, Human Acctivities
1. Introduction
1.1. potential applications
主要潜在应用:security, environmental science, healthcare, robotics.
1.2. early detection
事件早检测意味着尽可能快地检测到事件,在事件开始后结束前进行检测。如图。

1.3. 研究现状
现在大多数的方法是离线处理的,比如:
[5] 《Actions as space-time shapes》 PAMI 2007
[9] 《Discriminative figure-centric models for joint action localization and recognition.》ICCV 2011
[10] 《The extended Cohn-Kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression》 CVPR 2010
[13] 《Learning and inferring motion patterns using parametric segmental switching linear dynamic systems》 IJCV 2008
[14] 《High Five: Recognising human interactions in TV shows》 BMVC 2010
[16] 《Modeling the temporal extent of actions》 ECCV 2010
1.4. MMED
MMED基于结构输出的SVM,同时扩展成可以处理序列数据。使用部分事件作为正样例,只训练一个事件检测器去识别所有部分事件。但只是增加训练样例是不行的,我们需要这些样例满足单调性要求,即部分事件的检测得分不能高于整个事件的检测得分。MMED提供了一种方法可以去满足这个要求。
MMED的学习公式是一个受限的多项式优化问题。在3.2中,讨论两种量化损失函数的方法。我们发现,在这两种情况下,学习公式的目标就是去最小化训练数据的真实损失上界函数。
2. Previous Work
2.1. Early detection
Davis 和 Tyagi使用概率测试进行快速的人类行为识别,这是一个被动方法。它假设标准训练的生成HMM也能产生部分事件。
[2] 《Minimal-latency human action recognition using reliable-inference》 Image and Vision Computing 2006
Ryoo也使用一种被动方法进行人体行为的早检测。他使用两个词袋变量表示去解决计算问题。
[15] 《Human activity prediction: Early recognition of ongoing activities from streaming videos》 ICCV 2011
在其它领域也有一些关于早检测的研究,但都无法应用到视频事件检测上来。
2.2. Event detection
\((X^1, y^1), \cdots , (X^n, y^n)\)是训练时间序列和他们相关的兴趣事件标签。\(y^i = [s^i, e^i]\)是时间序列\(X^i\)中事件开始时间和结束时间。假设事件的长度在\(l_{min}\)和\(l_{max}\)之间。\(\mathcal{Y}(t)\)表示从第1帧到第t帧所有时间间隔的集合。
\]
\(y=\phi\)表示没有检测到事件,\(y=[s, e] \in \mathcal{Y}(l)\)表示从\(s\)帧到\(e\)帧的序列。\(g(X)\) 表示检测器的输出结果。
\]
传统的三种方法:
- SVM 所有正例, \(f(X_{y^i}^i;\theta) \ge 1\);负例小于等于1.
- HMM 定义\(f(\cdot, \theta)\)为似然函数,通过最大似然学习参数\(\theta\)。
- SOSVM 通过在相同时段正样例的得分大于其它段学习参数\(\theta\)。
3. Max-Margin Early Event Detectors
3.1. Learning with simulated sequential data
\(\phi(X_y)\)表示视频段\(X_y\)的特征向量。我们使用如下线性得分函数:
$$f(X_y;\theta) = \left\{ \begin{align*} &w^T\phi(X_y) + b & & if y \ne \emptyset, \\ & 0 & & otherwise. \end{align*} \right. $$
其中,\(\theta = (w, b)\), 以后使用 \(f(X_y)\) 表示 \(f(X_y; \theta)\)。
$$~~~~~~~~g(X_{[1, t]}^i) = y_t^i~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(3)$$
\(g(X_{[1,t]}^i)\) 是从开始帧到第 \(t\) 帧子序列的输出结果。
\]
得分函数期望结果如下:
\]
条件要求部分事件\(y_t^i\)的得分比其它任何时间\(y \subset [1, t]\)序列段的事件\(y\)得分都要高。

在SOSVM中,前面的条件可以通过自适应边界解决。这个边界就是\(\Delta(y_t^i, y)\),它是检测器输出结果\(y\)和期望结果的\(y_t^i\)的损失函数。\(\Delta (y_t^i, y) = 1 - \dfrac{2\mid y_t^i\cap y\mid}{\mid y_t^i \mid + \mid y \mid}\),条件就变成:
\]
在SVM中还可以加入松驰变量,我们得到如下公式:
$$ \begin{align*}\min_{w, ~ b, ~\xi^i \ge 0} & \dfrac{1}{2}\parallel w \parallel ^2 + \dfrac{C}{n}\sum_{i = 1}^{n} \xi ^ i & (7) \\ &s.t. ~~~ f(X_{y_t^i}^i) \ge f(X_y^i) + \Delta(y_t^i, y) - \dfrac{\xi^i}{\mu(\frac{\mid y_t^i \mid}{\mid y^i \mid })} & \\ &~~~~~~~~~~~~~~~~~~~~~~\forall i, \forall t = 1, \cdots , l^i, \forall y \in \mathcal{Y}(t). & (8) \end{align*}$$
\(\mu()\)应该是一个递增的函数。在实验中如下配置:
$$\left\{ \begin{align*}
& \mu (x) = 0 && 0 \lt x \le \alpha \\
& \mu(x) = \dfrac{x-\alpha}{\beta - \alpha} && \alpha \lt x \le \beta \\
& \mu(x) = 1 && \beta \lt x \le 1 ~~ or ~~ x = 0
\end{align*} \right. $$
\(\mu (0) = \mu(1) = 1\) 表明确定负段和正确段一样重要。
方法在线增加训练样本时,还要求检测器函数满足单调性。一个部分事件的得分不能超过包含它的事件得分。如下图:

为了更好分析条件(8),让我们分析不带松驰变量时的情况并把它划分成三种情况:
i) $t < s^i $,事件还没有开始。
ii) \(t \ge s^i, y=\phi\),事件已经开始,比较部分事件和检测阈值
iii) \(t \ge s^i, y \ne \phi\),事件已经开始,比较部分事件和任何非空段。
这三种情况分别是下面的条件(9),(10),(11):
\]
\]
\]
3.2. Loss function and empirical risk minimization
由于评估需要持续进行,量化一个在线的检测器在需要不断增加评估的损失值。序列\(X^i\)在时间\(t\)的损失是\(\Delta(y_t^i, y)\mu(\frac{y_t^i}{y^i})\)。两种量化方式是最大值或平均值。它们产生了两个不同的经验风险。
\]
\]
等式(7)的学习公式将最小化上面两个经验风险的上界。
命题:\(\xi ^* (g)\)是等式(7)中的松驰变量,那么\(\frac{1}{n}\sum_{i=1}^n \xi ^{i*}\)是经验风险\(R_{max}^{\Delta, \mu}(g)\),\(R_{mean}^{\Delta, \mu}(g)\)的上界。
证明:
4. Experiments
4.1. Evaluation criteria
ROC曲线面积: 在事件开始之前检测出来称为误检(FPR)。正确检测(TPR)是发生在感兴趣事件范围内。ROC曲线是TPR和FPR的函数。
AMOC曲线: 判别事件的检测时间长短(NTtoD)。定义NTtoD为\(\dfrac{t - s + 1}{e - s + 1}\)。当\(t < s\)时,误检时NTtoD为0。没有检测出来(t > e)时,置为\(\infty\)。AMOC曲线是NTtoD与FPR的函数。
F1-score 曲线: 在时间t,检测器可能输出y部件,但ground truth却是 \(y^*\) 。F1-score被定义为精确率和回召率的调和均值。 \(F1 := 2 \frac{Precision * Recall }{Precision + Recall}\),其中 \(Precision := \dfrac{\mid y \cap y^* \mid}{\mid y \mid}\),\(Recall := \dfrac{\mid y \cap y^* \mid}{\mid y^* \mid}\)。
4.2. 综合数据
综合数据是组合一个兴趣事件(i)和一些其他事件序列(ii, iii, iv)。(b)图是两个例子,红色线代表我们的方法检测结果,蓝色是SOSVM结果。

4.3. Auslan dataset
当观察事件很小时,MMED的F1得分明显要好很多。

4.4. Extened Cohn-Kanade dataset

4.5. Weizmann dataset
5. Conclusion
提出MMED,可以尽可能快地检测事件。
###《Max-Margin Early Event Detectors》的更多相关文章
- 《SaltStack技术入门与实践》—— Event和Reactor系统
Event和Reactor系统 本章节参考<SaltStack技术入门与实践>,感谢该书作者: 刘继伟.沈灿.赵舜东 Event是SaltStack里面的对每个事件的一个记录,它相比job ...
- 2018 BAT最新《前端必考面试题》
2018 BAT最新<前端必考面试题> 1.Doctype作用? 严格模式与混杂模式如何区分?它们有何意义? (1). 声明位于文档中的最前面,处于 标签之前.告知浏览器的解析器,用什么文 ...
- 《Head First HTML与CSS》的HTML标签、属性
一个标准的html5页面: <!doctype html> <html lang="zh-cmn-Hans"> <head> <meta ...
- 《收获,不止SQL优化》读书笔记
整体性能分析 AWR.ASH.ADDM.AWRDD 整体分析调优工具 AWR:关注数据库的整体性能的报告: ASH:数据库中的等待事件与哪些SQL具体对应的报告: ADDM:oracle给出的一些建议 ...
- 201871010116-祁英红《面向对象程序设计(java)》第八周学习总结
项目 内容 <面向对象程序设计(java)> https://home.cnblogs.com/u/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.c ...
- 201871010111-刘佳华《面向对象程序设计(java)》第十四周学习总结
201871010111-刘佳华<面向对象程序设计(java)>第十四周学习总结 实验十二 Swing图形界面组件(一) 实验时间 2019-11-29 第一部分:基础知识总结 1.设计 ...
- 201871010111-刘佳华《面向对象程序设计(java)》第十五周学习总结
201871010111-刘佳华<面向对象程序设计(java)>第十五周学习总结 实验十三 Swing图形界面组件(二) 实验时间 2019-12-6 第一部分:理论知识总结 5> ...
- 201871010111-刘佳华《面向对象程序设计(java)》第八周学习总结
201871010111-刘佳华<面向对象程序设计(java)>第八周学习总结 实验七 接口的定义与使用 实验时间 2019-10-18 第一部分:知识总结 接口的概念: ①java为了克 ...
- 201871010132-张潇潇-《面向对象程序设计(java)》第八周总结
201871010132-张潇潇<面向对象程序设计(java)>第八周学习总结 项目 内容 这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这 ...
随机推荐
- [Objective-c 基础 - 2.10] description方法
A. 实例对象打印-description 1.当使用NSLog函数并且使用%@占位符的时候,会调用对象的-description方法 2.拿到-description的返回值,显示到console中 ...
- 转载 深入理解JavaScript中的this关键字
转载原地址: http://www.cnblogs.com/rainman/archive/2009/05/03/1448392.html 深入理解JavaScript中的this关键字 1. 一 ...
- jquery-ui 之Sortable详解
<div class="aaa"> <ul id="sortable"> <li id="test">I ...
- hdu 2212
1.简单的思维问题 各个位上阶乘的和 要和这个数相匹配 这样才能得到正确的解.各个位上阶乘的和 是最大是9*9!这样来求解.999999999 9个9 最大的各个位上的阶乘的和为3265920=9 ...
- java properties 文件中书写相对路径
工程src下的properties 文件要引用发布到D:\work\apache-tomcat-7.0.52\webapps\项目名称\certs这个地址下的文件,properties 中的文件路径应 ...
- Android进阶之大话设计模式
一般来说,常用的设计模式有以下八种:单例.工厂.观察者.代理.命令.适配器.合成.访问者 单例模式:目的是为了让系统中只有一个调用对象,缺点是单例使其他程序过分依赖它,而且不同单例运行在不同进程中,使 ...
- cc2530 timer 1 PWM 输出
需要在ZStack 协议栈里使用PWM,于是使用其16bit的timer 1来实现之.使用 P1_0口输出,使用的是正计数/倒计数模式,占空比为50%.代码如下: #include <ioCC2 ...
- Codeforces Round #325 (Div. 2) A. Alena's Schedule 水题
A. Alena's Schedule Time Limit: 1 Sec Memory Limit: 256 MB 题目连接 http://codeforces.com/contest/586/pr ...
- W5500问题集锦(二)
attachment_id=5620" rel="attachment wp-att-5620" style="margin:0px; padding:0px; ...
- iOS开发——开发技巧&Mac常用命令
现实和隐藏文件拓展名 显示:defaults write com.apple.finder AppleShowAllFiles Yes && killall Finder 隐藏:def ...