RGBD动作识别的多视图层融合模型

摘要

基于视觉的动作识别在实践中遇到了不同的挑战，包括从任何角度识别主题，实时处理数据以及在现实环境中提供隐私。甚至识别基于配置文件的人类动作（基于视觉的动作识别的一个子集），在计算机视觉中也是一个巨大的挑战，它构成了理解复杂动作，活动和行为的基础，尤其是在医疗保健应用和视频监控系统中。因此，介绍了一种构建图层特征模型的新方法用于基于配置文件的解决方案，该解决方案允许融合多视图深度图像的功能。该模型能够以63 fps的实时运行速度从多个低复杂度的角度进行识别，以进行基于配置文件的四个动作：站立/行走，坐着，弯腰和躺着。使用Northwestern-UCLA 3D数据集进行的实验得出的平均精度为86.40％。使用i3DPost数据集，该实验的平均精度达到93.00％。使用PSU多视图基于配置文件的动作数据集（一个用于多视点的新数据集，该数据集提供基于配置文件的动作RGBD图像），平均精度达到了99.31％。

1.简介

自2010年以来，动作识别方法得到了越来越多的发展，并已逐步应用于医疗保健应用中，尤其是用于监视老年人。行动分析在调查日常生活活动中正常或异常事件中起重要作用。在此类应用中，必须充分考虑隐私和使用所选技术的便利性这两个关键因素。公认的行为模式是监视复杂活动和行为的系统的重要功能，该系统由构成长期活动结果的几个简短行为组成。例如，睡眠过程涉及站立/行走，坐着和躺着的动作；跌倒过程包括除坐外的上述所有动作。

近来，已经研究并提出了两种用于确定这些动作的主要方法：基于可穿戴传感器的技术和基于视觉的技术。

基于可穿戴惯性传感器的设备尺寸小，功耗低，成本低，并且易于嵌入到其它便携式设备（例如手机和智能手表）中，因此已广泛用于动作识别。用于执行导航的惯性传感器通常包括运动和旋转传感器（例如，加速度计和陀螺仪）。它提供了被跟踪对象的运动，视点，速度和加速度的路径。一些研究已经使用穿戴式传感器，移动电话和智能手表用于识别不同的动作。在某些研究中，重点是检测异常动作，例如跌倒，或者报告正常和异常情况下的状态。此外，要识别复杂的动作，必须在身体的不同位置嵌入多个传感器。惯性传感器的唯一局限在于带来的不便，因为传感器最终必须连接到身体，不方便且麻烦。

对于基于视觉的技术，许多研究都强调使用单视图或多视图方法来识别人类动作。

在单视图方法中，已经使用了四种类型的特征表示：基于关节/基于骨骼，基于运动/流，基于时空体积和基于网格：

（1）基于关节/基于骨骼的表示法定义了人体物理结构的特征并区分了其动作，例如，关节和部位的多级姿势特征，使用骨骼四边形的Fisher向量，人体的时空特征joints-mHOG，来自3D骨架的Lie向量空间，使用15个关节的不变轨迹跟踪，直方图骨架代码字，使用3D骨架的掩盖关节轨迹，具有SVM的3D骨骼关节的姿态特征，以及使用HMM的星状骨骼用于缺少观测值。尽管关节/骨骼估计的复杂性要求跟踪和预测具有良好的准确性，但这些表示仍可实现清晰的人体建模。

（2）基于运动/流的表示是一种基于全局特征的方法，该方法使用对象的运动或流，例如不变运动历史记录量，来自光流轨迹的局部描述符，基于KLT运动的摘录轨迹，发散度-卷曲剪切描述符，使用轮廓和光流的混合特征，运动历史和光流图像，多级运动集，累积运动能量的投影，时空运动描述符的金字塔以及具有遮挡估计的马尔可夫随机场的运动和光流。这些方法不需要精确的背景去除，而是利用需要策略和描述符来管理的获取的，不稳定的特征。

（3）基于体积的表示是通过使用多个框架构建模型的轮廓，形状或表面的堆栈来建模的，例如来自形状历史体积的时空轮廓，来自连续体积的几何属性，时空来自3D点云的形状，来自3D二元立方体时空的小波的时空特征，具有SVM的仿射不变量，使用二元轮廓的时空微体积，视觉的整体体积-运动历史量，以及来自亮度，颜色和方向分量的权重。这些方法获得了详细的模型，但必须处理特征的高维度，这些特征需要无背景的准确人为分割。

（4）基于网格的表示将感兴趣的观察区域划分为单元，网格或重叠块以编码局部特征，例如，定向矩形的网格或直方图，时空小型单元的流量描述符，来自空间网格和矩形光流网格的本地二进制模式直方图，定向梯度直方图的码字特征和光流直方图，多尺寸窗口中的3D兴趣点，运动梯度，以及运动历史，局部二进制模式和定向梯度的直方图的组合。这种方法对于空间域中的特征建模很简单，但是必须处理一些重复的和无关紧要的特征。

尽管单视图方法中描述的四种表示形式通常都不错，但是在监视大面积区域时，由于视角变化，遮挡和信息丢失，单个摄像机将无法确定连续的人体日常生活动作，等等。因此，引入了多视图方法以减轻单视图方法的局限性。

在多视图方法中，可以将方法分为2D和3D方法。

二维方法的示例包括：人体模型结构的基于层的图形表示，使用时空兴趣点进行人体建模和分类的视觉，视图不变动作和运动表示，R变换特征，具有PCA的轮廓特征空间，人体特征的低级特征，使用过渡HMM的光流直方图和关注点词组合，具有SVM的基于轮廓的统一局部二进制模式，具有关键姿势学习的多特征，降维轮廓，在多视图动作图像上使用线性判别分析的动作图，使用具有投票功能的自组织图和贝叶斯框架的姿势原型图，使用卷积神经网络进行多视图动作学习具有长短期记忆的功能，以及具有自动编码器神经网络的多视图动作识别功能，用于学习视图不变的功能。

3D方法的示例是从视图之间的特征重建或建模人体模型，包括金字塔的时空描述符和基于部分的特征（具有诱导的多任务学习），具有描述符的时空逻辑图部分，3D视频的时间形状相似度，图形的圆形FFT特征，多个时间自相似特征的包，DFT从运动的圆形移位不变性和带卷积神经网络的3D全身/姿势词典特征。所有这些3D方法都试图构建一个时空数据模型，该模型能够提高模型精度，从而提高识别率的准确性。

但是，多视图方法有一些缺点。这些方法需要更多的相机，因此成本更高。视点之间的相机校准和模型构建而言，这是一种更为复杂的方法，因此更加耗时。但是，在实际应用中，安装和设置应该简单，灵活并且尽可能容易。寻找在视点之间无校准或自动自校准的系统。

摄像头视野内的人（无论是一台摄像机还是许多摄像机）面临的一个问题是隐私和照明条件。基于视觉和基于配置文件的技术涉及使用RGB或非RGB。前者对隐私构成了严重的问题。使用RGB摄像机在私人区域监视动作会使被监视的人感到不舒服，因为这些图像会更清晰地暴露其物理轮廓。至于照明条件，RGB也容易受到强度的影响。图像通常在昏暗的环境中会变差。深度的方法帮助解决两个问题；物体的粗略深度轮廓足以确定动作，并且深度信息可以防止照明变化问题，这在全天候监视的实际应用中是一个严重的问题。研究中采用的深度方法与多视图方法一起被认为比单视图方法更值得。

对于大多数多视图非RGB结果，需要注意的一个问题是透视图的鲁棒性，视图定向的稳定性以及模型的复杂性。在无标定设置下，研究旨在为融合技术的发展做出贡献，该技术在评估人类动作识别的深度特征方面既强大又简单。已经开发了一个图层融合模型，以便融合来自多视图的深度轮廓特征，并在验证和效率的三重数据集上测试技术。测试的三个数据集是Northwestern-UCLA数据集，i3DPost数据集和用于从各种角度进行多视图动作的PSU数据集。

2.层融合模型

图层融合模型分为三个部分：预处理以提高图像质量；使用单视图层特征提取模块进行人体建模和特征提取；并使用图层特征融合模块从任何角度将特征融合到一个模型中，并分类为动作。系统概述如图1所示。

2.1. 预处理

图1. 预处理

2.2．图层人体特征提取

图2.特征提取

3．测试实验

图3. PSU数据集基于配置文件的操作的两个多视图方案示例。

RGBD动作识别的多视图层融合模型的更多相关文章

Action4D：人群和杂物中的在线动作识别：CVPR209论文阅读
Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...
Django - - - -视图层之视图函数(views)
视图层之视图函数(views) 一个视图函数,简称视图,是一个简单的Python 函数,它接受Web请求并且返回Web响应.响应可以是一张网页的HTML内容,一个重定向,一个404错误,一个XML文档 ...
【Django】视图层说明
[Django视图层] 视图层的主要工作是衔接HTTP请求,Python程序和HTML模板,使他们能够有机互相合作从模型层lou到数据并且反馈.说到视图层的工作就有以下几个方面要说 ■ URL映射对 ...
Django 的路由层视图层模板层
--------------------------------------------------------------通过苦难,走向欢乐.——贝多芬 Django-2的路由层(URLconf) ...
Django的视图层简介
Django的视图层视图函数所谓视图函数,其实就是我们Django项目中各个应用中的views.py文件中定义的每个用来处理URL路由映射到这里的逻辑函数.一个视图函数简称视图,它是个简单的Pyt ...
Django-1版本的路由层、Django的视图层和模板层
一.Django-1版本的路由层(URLconf) URL配置(URLconf)就像Django所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表:我们就是以这种方式告诉Dja ...
Django--路由层、视图层、模版层
路由层: 路由匹配 url(正则表达式,视图函数内存地址) 只要正则匹配到了内容,就不再往下匹配,而是直接运行后面的视图函数匹配首页) url(r'^&', home) 匹配尾页 url(r ...
Django系列（二）：Django的路由层，视图层和模板层
1.Django的路由层 URL配置(URLconf)就像Django所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表:我们就是以这种方式告诉Django,对于客户端发来的某 ...
第十二篇视图层之视图函数(views)-三件套
视图层之视图函数(views) 阅读目录(Content) 视图层之视图函数(views) 一个简单的视图 HttpRequest HttpResponse redirect 函数对比render与 ...

随机推荐

TP5 验证-内置规则
系统内置的验证规则如下: 格式验证类 require 验证某个字段必须,例如: 'name'=>'require' number 或者 integer 验证某个字段的值是否为数字(采用filte ...
关于Hexo博客NEXT主题(Gmini)站点图标不显示，显示错误的解决办法
关于Hexo博客NEXT主题(Gmini)站点图标不显示,显示错误的解决办法最近闲着没事自己利用Hexo和Github搭了个博客,但是在NEXT(Gmini)主题优化时,出了很多错误,图标不显示 ...
hdu 1814 字典序最小的2sat(暴力深搜)
题意: 题意就是最基础的2sat,关系只有矛盾关系,然后二选一,关键是这个题目是输出字典序最小的那组解. 思路: 输出字典序最小,用强连通那个实现不了(起码没看到有人实现),其实我 ...
Linux启动流程和服务管理(init和systemd)
目录一:Linux启动流程 init和Systemd的区别二:Linux服务管理(service,systemctl) 一:Linux启动流程 Rhel6启动过程: Rhel7启动过程: GRUB ...
android 资料
https://xfans.gitbooks.io/android-book/content/issue-39/Android%20dex%E5%88%86%E5%8C%85%E5%AF%BC%E8% ...
【ECharts】报表联动，动态数据设计
说明: 数据没有拉取后台数据,仅仅前端模拟数据,Copy即可有效果.联动后台时,使用异步获取数据即可.鼠标点击,动态展示点击项的数据.有关更多实例,请移步到echarts官网查看. 成果展示: 相关代 ...
Codeforces Round #687 (Div. 2, based on Technocup 2021 Elimination Round 2)
A. Prison Break 题意:就是在一个n*m的矩阵中,以(1,1)为起点(n,m)为终点,每个点以每个单位1s的速度移动,问总共至少需要多少秒,所有的矩阵点就能够全部移动到(r,c)中思路 ...
istioctl命令整理
显示配置文件中的差异 istioctl profile diff default demo 显示对应配置的profile istioctl profile dump demo 显示可用的配置 isti ...
QT发布 - 动态编译，删减以来dll
经常看到网上有些论调说 Qt 程序无比庞大,甚至拿 .NET 程序来比,说 Qt 程序打包以后跟 .NET 安装包差不多大.由此影响了很多人对 Qt 的选择.我觉得有必要对此做一些澄清-- 显然这个说 ...
linux操作系统故障处理-ext4文件系统超级块损坏修复
linux操作系统故障处理-ext4文件系统超级块损坏修复背景前天外面出差大数据测试环境平台有7台服务器挂了,同事重启好了五台服务器,但是还有两台服务器启动不起来,第二天回来后我和同事再次去机 ...

RGBD动作识别的多视图层融合模型

2.2．图层人体特征提取

RGBD动作识别的多视图层融合模型的更多相关文章

随机推荐

热门专题