Convolutional Pose Machines（理解）

CZiFan 2024-10-20 21:23:24 原文

0 - 背景

　　人体姿态识别存在遮挡以及关键点不清晰等主要挑战，然而，人体的关键点之间由于人体结构而具有相互关系，利用容易识别的关键点来指导难以识别关键点的检测，是提高关键点检测的一个思路。本文通过提出序列化结构模型，来提高人体姿态识别任务的效果。

1 - 贡献

使用一个序列卷积结构模型学习表达空间信息
采用系统的方法来设计和训练模型，以学习图像特征和依赖图像空间模型进行结构化预测的任务
在MPII/LSP/FLIC等数据集上实现了最好的性能
分析了联合训练一个多阶段、中间重复监督的架构的效果

2 - 整体思路

2.1 - CPM（Convolutional Pose Machines）

　　Convolutional Pose Machines（CPM）算法思想来自于Pose Machine，其网络结果如下图：

　　图中(a)和(b)是pose machine中的结构，(c)和(d)是其对应的卷积网络结构，(e)展示了图片在网络中传输的不同阶段的感受野。

Stage 1：对输入图片做处理，其中$X$代表经典的VGG结构，并且最后采用$1 \times 1$卷积输出belief map，如果人体有$k$个关键带来，则$belief map$的通道数为$k$
Stage T：对于Stage 2以后的Stage，其结构都统称为Stage T，其输入为上一个Stage的输出以及对原始图片的特征提取的联合，输出于Stage 1一致

2.2 - 损失函数

　　损失函数公式如下：

$$f_t=\sum_{p=1}^{P+1}\sum_{z\in Z}\begin{Vmatrix}b_t^p(z)-b_*^p(z)\end{Vmatrix}^2_2$$

3 - 实验

3.1 - intermediate supervision

　　如果直接对整个网络进行梯度下降，输出层的误差经过多层反向传播会大幅减小，而发生梯度消失现象。

　　　　

　　本文为了解决这个问题，提出了中间监督方法，从而保证底层参数的正常更新。

　　　　

　　效果如下图，可以看到，加入中间监督之后，在靠近输入的stage，其梯度比没有中间监督大很多，从而保证学习的效果。

3.2 - 感受野

　　CPM采用大卷积核获得大感受野，对于被遮挡的关键点检测很有效果。并且本文通过实验表明了随着感受野的增大，预测的准确率上升，如下图：

　　　　

　　文中提出增大感受野有如下几种方式：

增大pool，但会损失较多信息从而减小了精度
增大卷积核，同时会增加参数量
增加卷积层，层数过多容易产生梯度消失等问题

4 - 参考资料

https://arxiv.org/abs/1602.00134

https://blog.csdn.net/cherry_yu08/article/details/80846146

https://blog.csdn.net/shenxiaolu1984/article/details/51094959

https://www.cnblogs.com/JillBlogs/p/9098989.html

Convolutional Pose Machines（理解）的更多相关文章

Convolutional Pose Machines
Convolutional Pose Machines 2018-12-10 18:17:20 Paper:https://www.cv-foundation.org/openaccess/conte ...
人体姿势识别，Convolutional pose machines文献阅读笔记。
开源实现 https://github.com/shihenw/convolutional-pose-machines-release(caffe版本) https://github.com/psyc ...
SPM：Single-stage Multi-person Pose Machines
figure1图b figure1 -a figure3-a 图一-a
learning to Estimate 3D Hand Pose from Single RGB Images论文理解
持续更新...... 概括:以往很多论文借助深度信息将2D上升到3D,这篇论文则是想要用网络训练代替深度数据(设备成本比较高),提高他的泛性,诠释了只要合成数据集足够大和网络足够强,我就可以不用深度信 ...
论文笔记 Stacked Hourglass Networks for Human Pose Estimation
Stacked Hourglass Networks for Human Pose Estimation key words:人体姿态估计 Human Pose Estimation 给定单张RGB ...
（转）Awesome Human Pose Estimation
Awesome Human Pose Estimation 2018-10-08 11:02:35 Copied from: https://github.com/cbsudux/awesome-hu ...
从DeepNet到HRNet，这有一份深度学习“人体姿势估计”全指南
从DeepNet到HRNet,这有一份深度学习"人体姿势估计"全指南几十年来,人体姿态估计(Human Pose estimation)在计算机视觉界备受关注.它是理解图像和视频 ...
2016CVPR论文集
http://www.cv-foundation.org/openaccess/CVPR2016.py ORAL SESSION Image Captioning and Question Answe ...
PyTorch深度学习计算机视觉框架
Taylor Guo @ Shanghai - 2018.10.22 - 星期一 PyTorch 资源链接图像分类 VGG ResNet DenseNet MobileNetV2 ResNeXt S ...

随机推荐

五 Struts 配置文件
一.struts.xml详解1.package:包属性:name=命名 namespace=在action访问路径前面加的前缀 extends=继承另外的包 action:name=action的访 ...
easyui validatebox textbox 取值和赋值
总结:表单元素使用easyui时,textbox和validatebox设置值和获取值的方式不一样 text-box设置值只能使用id选择器选择表单元素,只能使用textbox("setVa ...
webstorm配置svn详解
1. 打开webstorm-> file -> setting -> plguins 输入svn如果没有SVNToolBox就在下面的列表中安装SVNToolBox插件即可. 2.c ...
linux系统docker版本升级或安装
如果存在旧版本,则先卸载最好先将镜像导出保存,以免升级后丢失或者无法使用如有正在运行的容器,先停止 $ docker ps -q | xargs docker stop 关闭docker服务 $ ...
RabbitMQ之安装
RabbitMQ是一个消息代理.它的核心原理非常简单:接收和发送消息.你可以把它想像成一个邮局:你把信件放入邮箱,邮递员就会把信件投递到你的收件人处.在这个比喻中,RabbitMQ就扮演着邮箱.邮局以 ...
codeforces 792A-D
先刷前四题,剩下的有空补. 792A New Bus Route 题意:给出x 轴上的n 个点,问两个点之间的最短距离是多少,有多少个最短距离. 思路:排序后遍历. 代码: #include<s ...
微信小程序爬坑
1.app.json配置信息是怎样的? { "pages":[ "pages/页面1/页面1", "pages/页面2/页面2", ], & ...
Python Spider - urllib.request
import urllib.request import urllib.parse import json proxy_support = urllib.request.ProxyHandler({' ...
Shodan的http.favicon.hash语法详解与使用技巧
在Shodan搜索中有一个关于网站icon图标的搜索语法,http.favicon.hash,我们可以使用这个语法来搜索出使用了同一icon图标的网站,不知道怎么用的朋友请参考我上一篇文章. 通过上一 ...
【dp】友好城市
题目一: [题目描述] Palmia国有一条横贯东西的大河,河有笔直的南北两岸,岸上各有位置各不相同的N个城市.北岸的每个城市有且仅有一个友好城市在南岸,而且不同城市的友好城市不相同. 每对友好城市都 ...