写在前面

本文是一篇于2023年3月21日发表在2023 International Conference on Big Data, Environmental Industry and Materials Science(ICBDEIMS 2023)的一篇会议论文。

论文主要聚焦于解决单签人体姿态估计网络模型中普遍存在的参数多、计算复杂度高、检测时间长的问题,文章采用了沙漏结构来创建轻量级的单路径网络模型,这个模型具有更少的参数和更短的计算时间,为了确保模型的准确性,文章中实现了一种减少参数数量的窗口自注意力机制,文章作者重新设计了自注意力模块,以实现有效提取局部和全局信息,从而丰富模型学习的特征信息,该模块与反向残差网络架构合并,创建了 WGNet 的独立模块。 最后,WGNet可以灵活地嵌入到模型的不同阶段。

摘要

摘要原文:

To tackle the issues of numerous parameters, high computational complexity, and extended detection time prevalent in current human pose estimation network models, we have incorporated an hourglass structure to create a lightweight single-path network model, which has fewer parameters and a shorter computation time. To ensure model accuracy, we have implemented a window self-attention mechanism with a reduced parameter count. Additionally, we have redesigned this self-attention module to effectively extract local and global information, thereby enriching the feature information learned by the model. This module merges with the inverted residual network architecture, creating a separate module of WGNet. Finally, WGNet can be flexibly embedded into different stages of the model. Training and validation on COCO and MPII datasets demonstrate that this model reduces the number of parameters by 25%, computational complexity by 41%, and inference time by nearly two times, compared to Hrformer, which also utilizes the windowed self-attention mechanism, at the cost of only 3.5% accuracy.

为了解决当前人体姿态估计网络模型中普遍存在的参数多、计算复杂度高、检测时间长的问题,我们采用沙漏结构来创建轻量级的单路径网络模型,该模型具有更少的参数和更短的计算时间。为了确保模型的准确性,我们实现了一种减少参数数量的窗口自注意力机制。 此外,我们重新设计了这个自注意力模块,以有效提取局部和全局信息,从而丰富模型学习的特征信息。 该模块与反向残差网络架构合并,创建了 WGNet 的独立模块。 最后,WGNet可以灵活地嵌入到模型的不同阶段。 在 COCO 和 MPII 数据集上的训练和验证表明,与同样利用窗口自注意力机制的 Hrformer 相比,该模型减少了 25% 的参数数量、41% 的计算复杂度和近两倍的推理时间。 成本准确率仅为3.5%。

Introduction 引言

人体姿态估计是人类行为分析、人机交互、医疗康复辅助等许多应用场景的必备任务。主要方法是通过构建神经网络来预测人体关键点的位置,因此提出具有高识别精度的模型是一个研究热点。为了提高预测精度,研究人员大多构建深度复杂的网络模型,但这也使得参数数量较大,计算速度较慢,难以应用于真实场景,这是目前人体姿态估计任务中需要解决的问题。

为了减少模型参数的数量,我们可以直接削减模型的深度和宽度,但这牺牲了相当大的精度,因此必须仔细设计模型结构。此外,随着Vaswani的自注意机制在各种预测任务中的主导地位,越来越多的研究者尝试将其应用于计算机视觉任务。许多研究将自关注机制引入到人体姿态估计任务中,使模型相对于卷积网络具有较强的远程建模能力、简单的结构和较少的参数,使模型的重量有所减轻。关于网络轻量级的研究已经有了很多成熟的研究成果。

Lightweight Model Structure 轻量化模型结构

我们从参数数量、计算复杂度和推理时间等方面对模型进行了综合评估,并设计了一个单分支轻量级人体姿态估计网络模型。整个模型如图所示:

WGNet中自注意机制

WGNet中自注意力机制部分如图所示:

首先,我们将输入的featuremap划分为多个相同大小的窗口,每个窗口分别计算自注意力;然后在每个窗口的相同位置取补丁并缝合在一起形成一个新窗口,每个窗口都进行自关注计算。

我们将WGNet中自我注意的计算量与原始自我注意(以下简称MHSA)进行比较。假设初始特征高度、宽度和通道分别为h、w和C。对于MHSA,特征中的每个patch通过q、k和v矩阵生成查询(q)、键值(k)和值(v),并使其长度与输入特征深度保持一致。C、q、k和v是需要学习的参数,分别进行初始化,根据变压器中的自注意计算过程,加上生成查询(q)、键(k)和值(v)的计算,得到MHSA计算结果如下(此处假设多头数为1,忽略softmax函数的计算):

在WGNet中,为了便于自我关注,首先将特征划分为不同的窗口,让窗口大小为h'和w',然后得到窗口hw/h'w'。然后从每个窗口的相同位置提取斑块,形成一个新窗口,并根据MHSA的计算步骤计算每个新窗口的计算量。我们让每个patch的大小取4×3,然后将新窗口的数量乘以每个新窗口的计算次数,我们可以得到WGNet中自关注的计算量公式如下:

假设输入图像大小为256×192,经过两层下采样后的尺寸为64×48。窗口大小需要被输入大小整除。

注意力机制:

注意力机制是机器学习中一种广泛应用于各种不同类型任务的数据处理方法。它在自然语言处理、图像处理和语音识别等领域得到了广泛应用。

注意力机制存在许多不同的分类方式。

  1. 根据注意力机制关注的范围不同,可以将其分为硬注意力(只关注一个元素),软注意力,全局注意力(关注全部元素),局部注意力(以对齐位置为中心的窗口)和稀疏注意力(关注分布稀疏的部分元素)等。

  2. 根据注意力机制的组合方式,可以将其分为协同注意力机制,层次注意力机制,多头注意力机制等。

  3. 根据注意力的计算方式,可以将其分为点积注意力,自注意力和关键值注意力等。

  4. 根据注意力机制应用于不同领域的方式,可以将其分为通道域注意力,空间域注意力,时间域注意力和混合域注意力。

[1]夏庆锋,许可儿,李明阳等.强化学习中的注意力机制研究综述[J/OL].计算机科学与探索,1-22[2024-01-20]http://kns.cnki.net/kcms/detail/11.5602.TP.20240116.1141.002.html.

自注意力机制

目前,自注意力是应用最广泛的注意力机制之一,该机制反映了输入和输出序列中元素的相似性,并为学习过程中的不同元素分配不同的权值。

总而言之,自注意力机制广泛应用于基于价值的算法和演员评论家算法,它目前主要实现了三种功能:评估信息的重要性、消除虚假信号和数据冗余以及增强 RL 模型的可解释性。但自注意力机制通常只关注输入序列中局部区域的信息,而缺乏对整个序列的全局感知。这可能在某些任务上限制了强化学习算法的性能。下表为自注意力机制与强化学习结合算法的总结。

[1]夏庆锋,许可儿,李明阳等.强化学习中的注意力机制研究综述[J/OL].计算机科学与探索,1-22[2024-01-20]http://kns.cnki.net/kcms/detail/11.5602.TP.20240116.1141.002.html.

写在最后

好了,今天的分享就到这了,明天再见喽。

基于自注意力机制的轻量级人体姿态估计(Lightweight Human Pose Estimation Based on Self-Attention Mechanism)的更多相关文章

  1. paper 154:姿态估计(Hand Pose Estimation)相关总结

    Awesome Works  !!!! Table of Contents Conference Papers 2017 ICCV 2017 CVPR 2017 Others 2016 ECCV 20 ...

  2. 快速人体姿态估计:CVPR2019论文阅读

    快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...

  3. Facebook提出DensePose数据集和网络架构:可实现实时的人体姿态估计

    https://baijiahao.baidu.com/s?id=1591987712899539583 选自arXiv 作者:Rza Alp Güler, Natalia Neverova, Ias ...

  4. openpose-opencv 的body数据多人体姿态估计

    介绍 opencv除了支持常用的物体检测模型和分类模型之外,还支持openpose模型,同样是线下训练和线上调用.这里不做特别多的介绍,先把源代码和数据放出来- 实验模型获取地址:https://gi ...

  5. openpose-opencv 的coco数据多人体姿态估计

    介绍 opencv除了支持常用的物体检测模型和分类模型之外,还支持openpose模型,同样是线下训练和线上调用.这里不做特别多的介绍,先把源代码和数据放出来- 实验模型获取地址:https://gi ...

  6. 从DeepNet到HRNet,这有一份深度学习“人体姿势估计”全指南

    从DeepNet到HRNet,这有一份深度学习"人体姿势估计"全指南 几十年来,人体姿态估计(Human Pose estimation)在计算机视觉界备受关注.它是理解图像和视频 ...

  7. 人体姿态的相似性评价基于OpenCV实现最近邻分类KNN K-Nearest Neighbors

    最近学习了人体姿态的相似性评价.需要用到KNN来统计与当前姿态相似的k个姿态信息. 假设我们已经有了矩阵W和给定的测试样本姿态Xi,需要寻找与Xi相似的几个姿态,来估计当前Xi的姿态标签. //knn ...

  8. 人体姿态和形状估计的视频推理:CVPR2020论文解析

    人体姿态和形状估计的视频推理:CVPR2020论文解析 VIBE: Video Inference for Human Body Pose and Shape Estimation 论文链接:http ...

  9. CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等

    CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等 CVPR 2020中选论文放榜后,最新开源项目合集也来了. 本届CPVR共接收6656篇论文,中选1470篇,&q ...

  10. NLP之基于Seq2Seq和注意力机制的句子翻译

    Seq2Seq(Attention) @ 目录 Seq2Seq(Attention) 1.理论 1.1 机器翻译 1.1.1 模型输出结果处理 1.1.2 BLEU得分 1.2 注意力模型 1.2.1 ...

随机推荐

  1. 跨平台交叉编译 Native AOT

    如何将.NET 应用程序发布到鸿蒙上,肯定是很多人感兴趣的话题,目前.NET完全具备可以在OpenHarmony系统上运行的能力,.NET 现在有很多选项CoreCLR.Mono和NativeAOT. ...

  2. eShopOnContainer 中 unauthorized_client error 登录错误处理

    在准备好 eShopOnContainer 环境,运行起来之后,不幸的是,我遇到了不能登录的错误. 从错误信息中,可以看到 unauthorized_client 的内容.这是为什么呢? 从 eSho ...

  3. 【数据结构】【冒泡排序法】Java写冒泡排序法

    public class 冒泡 { public static int[] maopao(int[] arr){ for(int i=0;i<arr.length-1;i++){ for(int ...

  4. tar/zip命令加密压缩

    回到顶部 场景 Centos6下使用加密压缩,可以从A机器到B机器解压. 可用在kali上解压就不行. 回到顶部 命令 解包 tar zxvf FileName.tar 打包 tar czvf Fil ...

  5. hive表元数据读取不到

    MetaException(message:java.lang.UnsupportedOperationException: Storage schema reading not supported) ...

  6. Qt数据库应用22-文件编码格式识别

    一.前言 在做数据导入导出的过程中,如果应用场景多了,相信各位都会遇到一个问题就是文件编码的问题,有些文件是ANSI编码,有些是utf8编码,有些又是utf8带bom编码,不同的文件编码如果都用同一种 ...

  7. Qt编写地图综合应用53-省市轮廓图下载

    一.前言 Qt的浏览器控件的交互机制非常方便,所以在在线地图的时候可以对每个区域的经纬度坐标集合发给Qt程序,让他去存储到文件,在实际的测试过程中,发现有部分地图有多个封闭的曲线的,比如散落的岛屿和飞 ...

  8. [转]Windows10+VS2013+OpenCV3.0开发环境搭建配置

    首先要说明一下:不管VS(Visual Studio)的版本是什么,也不管OpenCV的版本是什么,配置都大同小异.所以如果您希望在Window下配置OpenCV的开发环境,那么仔细阅读学习这篇文章即 ...

  9. [转]C# PowerPoint操作的基本用法

    using System; using System.Collections.Generic; using System.Linq; using System.Text; using OFFICECO ...

  10. Note / Solution Set -「Binomial Sum」两道例题

      删本地文件的时候瞟了一眼内容 ... 这篇好像忘记发布了?   给定 \(n,k\), 求出 \[\textit{ans}=\sum_{i=0}^n\binom{n}{i}i^k\bmod(10^ ...