论文概况

论文名：Towards Accurate Multi-person Pose Estimation in the Wild

作者(第一作者)及单位：George Papandreou, 谷歌

发表期刊/会议：CVPR2016

被引次数（截止到发博日期，以谷歌学术为数据来源）：52

主要方法

论文实现的是多人的姿态估计，使用的是自顶向下（top-down）的方法，即：先由目标检测方法把人检测出来，然后再进行单人的姿态估计。这篇论文的总体流程是：第一步，使用Faster-RCNN进行人的检测。第二步，进行姿态估计。

第一步、使用Faster-RCNN进行人的提取

这部分看起来没什么好说的，但是，读论文就要事无巨细，所以来看一下详细实现。

文章中使用了基于ResNet101的Faster-RCNN,但是做了一些更改，就是把卷积操作用atrous convolution给修改了，具体修改可以看一下原文的参考文献，我们这里看一下atrous convolution是什么，atrous convolution频繁的在deeplab的论文里出现，这里特意找了一下，如下图：

图(b)就是atrous convolution，接下来我们看一个二维的卷积，如图：

这幅图虽然是讲的时空金字塔池化，但是上面的卷积核我们可以直观的看到，可以说就是带孔的卷积，这样可以用相对更少的参数得到更大感受野的feature map（这样说也不知道对不对），论文中这么做的目的是为了让ResNet的输出由原来的stride=32变成stride=8,这样子就可以产生更“稠密”的feature map,我的理解是具有更大的感受野和更多的信息。另外，这里用的Faster-RCNN是重新训练过的，并且训练的时候只保留“人”这一个类别。

第二步、姿态估计

这部分是本文的重头戏，其骨干就是用ResNet来同时做了分类和回归。

１．图片分割

之前说过，我们首先要通过一个Faster-RCNN来检测人，但是我们知道检测框的大小不一样，那么应该如何处理呢。让我来做的话，二话不说，直接resize成我的网络输入大小，但实际上这样子会使我的人的图像长宽比失真，最终导致我的模型训练效果不佳。本文使用了一个比较好的方法，我觉得以后做类似任务的时候都可以这么处理。

将检测出来的框的长或宽扩展，使检测框符合一个长宽比ｘ。
然后将整个框保持长宽比不变进行扩大，论文里说训练的时候按照１.0-1.5的比例随机扩大，也算是数据集增强的一部分，然后测试的时候就按1.25的比例扩大。
将上面的框框出来的区域裁剪，然后resize成257*353的大小，注意，之前的长宽比x=353/257=1.37，这样，即使经过resize，图片也不会失真。

２．分类和回归问题

前面说过，这部分主要是做了分类和回归。对于分类问题，论文中将以关节点为中心，以R为半径的区域归为１，其余位置为０。对于回归问题，回归了一个向量，也就是偏移量，定义为：
\[
F_{k}(x_{i})=l_k-x_i
\]
其中ｌ_k为关节点坐标。为什么要这样呢？直接回归出关节点不好吗，实际上直接回归是很难的，谷歌的deeppose论文就是直接回归的，但是也是用了很多了阶段不停地修正才能得到真正的坐标，我曾经试过只用一个阶段单纯的回归坐标，但是结果是所有的预测结果都是一样的，必须经过修正才可以让网络学到真正能识别关节的特征，所以这就是本文的两步走策略，我先找到一个大概区域，然后根据我预测的偏移量投票出我真正的关节点坐标，那么怎么得到呢，公式如下：
\[
f_k(x_i)=\sum_{j}\frac{1}{\pi R^2}G(x_j+F_k(x_j)-x_i)h_k(x_j)
\]
其中G()是 bilinear interpolation kernel，恕我才疏学浅，这个函数找了很久都不知道是什么，看字面是双线性内插算法，但是双线性内插公式要有四个已知点，这部分等以后搞懂了再说吧。但是论文中提到，如果heatmap（也就是那个圆）和offset（偏移向量）都是完美的话，那么f应该是冲击响应函数，我们看一下论文里的图片，直觉上理解一下。

后面就是实验结果，其中还提到了基于OKS的非最大值抑制，但是可惜没有说具体怎么做，关于非最大值抑制的相关问题，由于这个也很重要，以后单写一篇随笔吧。

Towards Accurate Multi-person Pose Estimation in the Wild 论文阅读的更多相关文章

DensePose: Dense Human Pose Estimation In The Wild（理解）
0 - 背景 Facebook AI Research(FAIR)开源了一项将2D的RGB图像的所有人体像素实时映射到3D模型的技术(DensePose).支持户外和穿着宽松衣服的对象识别,支持多人同 ...
对DensePose: Dense Human Pose Estimation In The Wild的理解
研究方法通过完全卷积学习从图像像素到密集模板网格的映射.将此任务作为一个回归问题,并利用手动注释的面部标注来训练我们的网络.使用这样的标注,在三维对象模板和输入图像之间,建立密集的对应领域,然后作为 ...
（转）Awesome Human Pose Estimation
Awesome Human Pose Estimation 2018-10-08 11:02:35 Copied from: https://github.com/cbsudux/awesome-hu ...
paper 154：姿态估计（Hand Pose Estimation）相关总结
Awesome Works !!!! Table of Contents Conference Papers 2017 ICCV 2017 CVPR 2017 Others 2016 ECCV 20 ...
手势估计- Hand Pose Estimation
http://blog.csdn.net/myarrow/article/details/51933651 1. 目前进展 1.1 相关资料 1)HANDS CVPR 2016 2 ...
human pose estimation
2D Pose estimation主要面临的困难:遮挡.复杂背景.光照.真实世界的复杂姿态.人的尺度不一.拍摄角度不固定等. 单人姿态估计传统方法:基于Pictorial Structures, ...
Social Grouping for Multi-Target Tracking and Head Pose Estimation in Video（翻译）
0 - ABSTRACT 许多计算机任务在缺少上下文信息的情况下的处理会更加困难.例如,在多相机跟踪任务下,行人可能在不同照相机下面因为有这不同的姿势和灯光条件而看起来很不一样.类似地,在低分辨率高角 ...
论文笔记: Mutual Learning to Adapt for Joint Human Parsing and Pose Estimation
Mutual Learning to Adapt for Joint Human Parsing and Pose Estimation 2018-11-03 09:58:58 Paper: http ...
论文阅读理解 - Stacked Hourglass Networks for Human Pose Estimation
http://blog.csdn.net/zziahgf/article/details/72732220 keywords 人体姿态估计 Human Pose Estimation 给定单张RGB图 ...

随机推荐

css z-index之object flash层级问题
<object type="application/x-shockwave-flash" data="flash文件路径" style="z-i ...
nRF5 SDK for Mesh( 七 ) BLE MESH 的架构（rchitecture）
The mesh architecture The mesh stack consists of a number of subsystems that are interfaced throug ...
初试mininet(可选PyCharm)
目录 0x00 Mininet 0x01 Important classes, methods, functions 0x02 Sample 0x04 run in shell 0x05 Output ...
BZOJ 3489: A simple rmq problem(K-D Tree)
Time Limit: 40 Sec Memory Limit: 512 MBSubmit: 2579 Solved: 888[Submit][Status][Discuss] Descripti ...
CentOS7 minimal（最小化安装）后增加的软件安装
1.net-tools 安装,因为习惯使用ifconfig命令 2.wget安装,下载工具必不可少 3.vim安装,相比于vi个人更喜欢vim 4.yum-plugin-priorities安装,用于 ...
IE浏览器中找不到开发者工具
ie浏览器不知道什么原因开发者工具不见了.打开以后在任务栏中显示打开了控制台,但是看不到. 解决方法 : F12 打开开发者工具后,按下 “ Ctrl + P ”
Spring MVC中如何解决POST请求中文乱码问题，GET的又如何处理呢
在web.xml中配置过滤器 GET请求乱码解决: 在Tomcat中service.xml中
Linux网卡配置文件参数详解
之所以弄这玩意儿是图个清晰方便,最近这段时间弄了好十来次虚拟机网络了ubuntu,centos,rhat7各种折腾,其实把网上各种命令行下的攻略折腾最后关键无非都是对/etc/sysconfig/ne ...
HTML5 -- 浏览器数据缓存 -- indexedDB
IndexedDB是一种可以让你在用户的浏览器内持久化存储数据的方法,为web应用提供了丰富的查询功能,使我们的应用在在线和离线都能正常工作. 由于 IndexedDB 本身的规范还在持续演进中,当前 ...
vue-nuxt.js部署到宝塔主机服务器
废话不多说,直接上步骤,如下: 本文章为在 vue环境下使用了nuxt.js 1.搭建环境--由于本人安装的是宝塔主机,因此如下: 由于我直接使用的是宝塔主机,直接去“软件管理”安装 PM2管理器. ...

Towards Accurate Multi-person Pose Estimation in the Wild 论文阅读