CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状

CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状

ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape

论文链接地址：https://arxiv.org/pdf/1812.02781.pdf

摘要内容：

本文提供了基于端到端单目3D目标检测和度量形状检索的深度学习方法。为了在3D中提升2D检测，定位，以及缩放，提出了一种新的loss函数。不同于各自独立的优化这些数量，3D示例允许适当的度量boxes的不一致性。实验结果显示，10维稀疏2D兴趣域Regions of Interests (RoIs)提升在6D姿态和示例纹理几何测量中都取得很好的效果。这也能够通过直接在2D场景上修复恢复的网格来增强数据。对照在KITTI 3D数据上别的单目方案，本文的方案基于官方正规的数据集上，在3D姿态测试结果达到双倍的AP。

1．introduction

文章提出了一种度量精确的单目3D目标检测端对端方法。

主要贡献有三点：

一种度量精确的单目3D目标检测端对端方法，包括一种可微分的2D ROI到3D ROI 提升映射，并提供了用于回归3D box 实例的所有组件；

一种用于在度量空间对其3D box的损失函数，直接优化其关于真值的误差；

扩展模型，将其用于预测度量纹理面片，保证了进一步的3D 推理，包括3D 一致性仿真数据增强。

称该模型为"ROI-10D"，将2D ROI提升到3D ROI需要6自由度的位姿参数，3个自由度的空间体积，和一个形状自由度。

2. 用于位姿和形状估计的单目10D提升

分三个部分介绍了方法：

模型结构

用于3D的损失函数

学习得到的度量形状空间，以及如何使用估计的形状参数进行3D重建

2.1 端到端的单目结构

类似于Faster RCNN，首先检测2D区域的proposals，然后为每个proposal region执行分支预测。2D proposals使用了FPN-ResNet34，并使用了focal loss加权。对每个检测到的proposal region使用ROIAlign 提取用于预测分支的特征。

由于信息缺失和重投影模糊，从单目图像中直接回归3D信息是病态、不稳定的。该文献使用了state-of-the-art的SuperDepth 网络预测输入图像中逐像素的深度值。然后将FPN网络输出的特征与深度特征堆积在一起，使用带有Group Normalization 的两个卷积层处理得到融合特征，最后使用检测到的2D bbox和ROI Align在ROI Lifting中提取对应的特征，回归3D旋转、平移、目标的绝对尺度以及目标形状。

2.2 由单目2D实例到6D位姿

该问题其实是一个可微分的提升映射，，即从一个2D的到一个3D的bounding box 。将旋转编码为4D的四元数，将平移编码为2D物体中心的相对深度。此外，使用到数据集平均体积的偏差描述物体三维体积。

给定一个2D ROI ，使用ROI Align提取指定区域特征，分别预测出旋转量q，相对于ROI的2D中心(x, y)，深度值z和物体的绝对尺度(w, h, l)，提升映射为：

其中K为相机内参矩阵

损失函数

当仅从单目图像中估计位姿参数时，像素空间中的微小误差可以导致位姿参数的剧烈变化。将问题提升到了3D，并使用了6D自由度的代理损失函数。因此，没有同时对所有预测项进行优化，而是让网络在训练期间自己调整。给定一个3D bbox 和对应的2D检测框，其到3D的提升映射为，在度量空间关于八个3D角点的损失函数为：

在训练过程中，需要一个warm up过程以得到稳定的数值流形。因此训练单个的预测项，直到得到稳定的3D box实例。

Allocentric 回归 and Egocentric 提升

相机光轴是否对准目标中心，Egocentric 以相机为中心，相机光轴不一定对准目标中心，allocentric是以目标为中心。两者的区别在于当发生与相机之间的位移时，Allocentric中相机光轴随着目标位移而移动，目标的形状变化不大，而Egocentric中相机光轴不变，目标的形状变化较大。

大视场条件下，Allocentric pose estimation很重要。

由于ROI缺少全局的信息，在回归时认为四元数是Allocentric的，然后结合推理出来的平移量矫正为Egocentric，然后提升到3D boxes。

2.3 目标形状学习与检索

介绍了如何将端到端的单目3D目标检测模型扩展到预测三角面片，并用于数据增强。

学习一个光滑的形状

给定了50种商用模型，创建了一个映射受限的带符号的距离场，大小为128×128×256。首先使用PCA学习低维的形状，实验中发现形状空间很快地偏离了均值。使用PCA生成形状要求评价每一维度的标准差。因此，使用一个3D自编码/解码器 E和D，对输出的TSDF强制不同的约束。E和D都使用了1，8， 16， 32四种卷基层。此外使用核为6的全卷积层作为隐藏层。在训练过程中将所有的隐藏层映射到半球上，以保证连续性。对输出层的跳跃通过总方差进行惩罚，损失函数为：

形状真值的标注

对于3D 提升器的形状分支，预测形状s和形状真值s*间的相似度由两点在半球上的角度决定：

在推理时，预测了低维的隐藏层向量，并将其传递给解码器以得到TSDF表示。

简单面片纹理

模型可以得到目标的尺度与形状，可以投影检索得到的3D面片。将朝向相机的定点映射到图像平面，并赋予相应的值。

2.4 消融分析

评估新的算法怎样优化极小化loss。另外，证实在KITTI 3D数据集上在哪里和为何如此难以准确评估。最后，分析由于不同的输入以及怎样更好让loss影响姿态的质量。

2.5 仿真3D 数据增强

KITTI3D数据集较小，且3D真值获取耗时耗力，采用仿真数据是一种常用方法。文章使用提取得到的面片以生成真实的渲染，而不是写固定的CAD模型。此外，仿真目标的摆放没有太多限制。使用allocentric pose移动目标，不改变视角。

3. 实验

CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状的更多相关文章

CVPR2020 论文解读：少点目标检测
CVPR2020 论文解读:具有注意RPN和多关系检测器的少点目标检测 Few-Shot Object Detection with Attention-RPN and Multi-Relation ...
CVPR2019 论文解读| BASNet：关注边界的显著性目标检测
作者 | 文永亮学校 | 哈尔滨工业大学(深圳) 研究方向 | 目标检测概要这是一篇发表于CVPR2019的关于显著性目标检测的paper,<BASNet:Boundary-Aware ...
CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读作者 | 文永亮研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
CVPR2020论文解读：3D Object Detection三维目标检测
CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...
SCNN车道线检测--(SCNN)Spatial As Deep: Spatial CNN for Traffic Scene Understanding（论文解读）
Spatial As Deep: Spatial CNN for Traffic Scene Understanding 收录:AAAI2018 (AAAI Conference on Artific ...
AAAI2019 | 基于区域分解集成的目标检测论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测论文解读作者 | 文永亮学 ...
zz扔掉anchor！真正的CenterNet——Objects as Points论文解读
首发于深度学习那些事已关注写文章扔掉anchor!真正的CenterNet——Objects as Points论文解读 OLDPAN 不明觉厉的人工智障程序员关注他 JustDoIT 等 ...
《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读
论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...
CVPR2020论文解读：三维语义分割3D Semantic Segmentation
CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3 ...

随机推荐

WordPress 函数do_action()详解和应用举例
do_action()函数: 我们经常能看到在一些WordPress函数中调用了do_action()函数,例如get_header(), get_footer()等调用模板的函数中经常调用do_ ...
【Nacos】Springboot整合nacos配置中心(一)
一.本地Nacos安装环境: Win7 ,JDK8 ,maven3.5 1.下载安装包 2.启动nacos服务,bin文件下下面startup.cmd 3.访问 http://localhost:88 ...
Mysql 8.0安装
1. 下载安装包至/usr/local目录下下载地址:https://cdn.mysql.com/Downloads/MySQL-8.0/mysql-8.0.16-el7-x86_64.tar.gz ...
LA3989女士的选择
题意: 给你n个男士n个女士,然后给你每个男士中女士的排名,和每个女士中每个男士在他们心中的排名,问你是否可以组成稳定的舞伴,如果存在以下情况(1)男生u和女生v不是舞伴,他们喜欢对方的程 ...
AWVS扫描器的用法
目录 AWVS AWVS功能介绍 AWVS如何工作审核漏洞 AWVS11页面介绍 AWVS11中建立扫描 AWVS10.5中的介绍 AWVS11版本启动失败利用Burpsuite修改AWVS的数据 ...
POJ3498最大流，枚举终点，企鹅，基础最大流
题意: 有一n个冰块,每个冰块上都有一些企鹅,所有的企鹅要跳到一个冰块上去,但是由于起跳是的后坐力原因导致每个冰块最多条mi次,最后问你所有的企鹅都跳到一个冰块上去的那块冰块可以是哪一块, ...
Windows 签名伪造工具的使用,Python,签名
#!/usr/bin/env python3 # LICENSE: BSD-3 # Copyright: Josh Pitts @midnite_runr import sys import stru ...
Excel-宏与VBA-数据类型
学习视频,本文是观看前视频时做的笔记,手动感谢up. 数据类型案例声明一个变量并且赋值 Sub 变量() ' 声明一个变量用Dim,格式就是 Dim 变量名 As 数据类型 Dim Score A ...
C#基于Mongo的官方驱动手撸一个Super简易版MongoDB-ORM框架
C#基于Mongo的官方驱动手撸一个简易版MongoDB-ORM框架如题,在GitHub上找了一圈想找一个MongoDB的的ORM框架,未偿所愿,就去翻了翻官网(https://docs.mongo ...
SSM久别遇新坑
SSM久别遇新坑久别个锤子,也就几天没看,改bug改到怀疑人生 maven的父子模块问题众所周知,用maven建立一个空的模块,在它之下,将原本的各层次结构分别新建为一个子模块,就能够将各业务进行 ...

CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状

CVPR2019论文解读：单眼提升2D检测到6D姿势和度量形状的更多相关文章

随机推荐

热门专题