李飞飞团队最新论文：基于anchor关键点的类别级物体6D位姿跟踪

6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypoints

论文地址：

6-PACK: Category-level 6D Pose Tracker with Anchor-Based Keypointsarxiv.org

代码链接：

githubsites.google.com

简介

作者提出了一种基于RGB-D的深度学习方法6PACK，能够实时的跟踪已知类别物体。通过学习用少量的三维关键点来简洁地表示一个物体，基于这些关键点，通过关键点匹配来估计物体在帧与帧之间的运动。这些关键点使用无监督端到端学习来实现有效的跟踪。实验表明该方法显著优于现有方法，并支持机器人执行简单的基于视觉的闭环操作任务。

问题的提出

在机器人抓取任务中，实时跟踪物体6D位姿的能力影响抓取任务的实施。现有的6D跟踪方法大部分是基于物体的三维模型进行的，有较高的准确性和鲁棒性。然而在现实环境中，很难获得物体的三维模型，所以作者提出开发一种类别级模型，能够跟踪特定类别从未见过的物体。

创新点

1、这种方法不需要已知物体的三维模型。相反，它通过新的anchor机制，类似于2D对象检测中使用的proposals方法，来避免定义和估计绝对6D位姿。

2、这些anchor为生成三维关键点提供了基础。与以往需要手动标注关键点的方法不同，提出了一种无监督学习方法，该方法可以发现最优的三维关键点集进行跟踪。

3、这些关键点用于简洁的表示物体，可以有效地估计相邻两帧之间位姿的差异。这种基于关键点的表示方法可以实现鲁棒的实时6D姿态跟踪。

核心思想

作者提出的模型使用RGB-D图像，基于之前位姿周围采样的anchors（红点），来鲁棒地检测和跟踪一组基于3D类别的关键点（黄色）。然后利用连续两帧中预测的关键点，通过最小二乘优化求解点集对齐的问题，计算出6D物体的位姿变化。

问题的定义

将类别级物体6D位姿跟踪定义为：物体在连续时间t−1和t之间的位姿变化问题。初始位姿是针对相同类别的所有目标物体定义的标准框架相对于相机框架的平移和旋转。例如，对于类别“相机”，将框架放置在物体的质心处，x轴指向相机物镜的方向，y轴指向上方。

将3D关键点定义为：在整个时间序列中几何和语义上一致的点。给定两个连续的输入帧，需要从两帧中预测匹配的关键点列表。基于刚体假设的基础，利用最小二乘优化来解决点集对齐问题，从而得到位姿的变化∆p。

模型

首先在预测物体实例的周围剪裁一个放大的体积，将其归一化为一个单元；在体积块上生成anchor网格；之后使用DenseFusion计算M个点的几何与颜色融合特征；根据距离将它们平均池化成N个anchor特征；注意力机制网络使用anchor特征来选择最接近质心的点；用质心生成一组有序的关键点。将这种关键点生成方法应用在前一帧和当前帧，得到两组有序的关键点来计算帧间的位姿变化。

6-PACK算法在预测位姿周围生成anchor网格的过程中使用了注意力机制。每个点用RGB-D点单独特征的距离加权和来表示体积。使用anchor信息在新的RGB-D框架中找到物体的粗略质心，并指导对其周围关键点的后续搜索，这比在无约束的三维空间中搜索关键点效率更高。

实验结果

作者采用的数据集是NOCS-REAL275，包含六个类别。通过对比三个模型的baseline来评估作者的方法。

NOCS：类别级物体6D位姿估计sota。

ICP：Open3D中中实现的标准点对面ICP算法。

KeypointNet：直接在三维空间中生成3D关键点。

1）6-PACK指标5°5cm比NOCS高出15%以上，指标IoU25高出12%。说明与使用所有输入像素作为关键点的NOCS相比，6-PACK能够检测出最适合类别级6D跟踪的3D关键点。实验结果如下图所示：

其中，前两列为NOCS和6-PACK的定性对比，后两列为关键点匹配的结果。

2）6-PACK所有指标都优于KeypointNet，KeypointNet经常跟丢。作者的方法避免了丢失物体的轨迹（IoU25>94%），基于anchor的注意力机制提高了整体的跟踪性能。

3）为了检验不同方法的鲁棒性和稳定性，作者计算了没有前x帧的平均性能。这样就能测量出初始位姿对性能的影响（接近初始位姿的帧很容易跟踪）。如下图，除了NOCS之外，所有方法的性能都有所下降，因为NOCS是位姿估计方法，而不是位姿跟踪方法。在整个过程中，6-PACK的性能比NOCS高出10%以上，并在初始帧100后停止下降。

4）作者在机器人上进行了实时测试，超过60％的试验中，成功地跟踪了目标（目标在可视范围内），而没有丢失。

李飞飞团队最新论文：基于anchor关键点的类别级物体6D位姿跟踪的更多相关文章

ICRA 2019最佳论文公布李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文
机器人领域顶级会议 ICRA 2019 正在加拿大蒙特利尔举行(当地时间 5 月 20 日-24 日),刚刚大会公布了最佳论文奖项,来自斯坦福大学李飞飞组的研究<Making Sense of ...
李飞飞确认将离职！谷歌云AI总帅换人，卡耐基·梅隆老教授接棒
https://mp.weixin.qq.com/s/i1uwZALu1BcOq0jAMvPdBw 看点:李飞飞正式回归斯坦福,新任谷歌云AI总帅还是个教授,不过这次是全职. 智东西9月11日凌晨消息 ...
李飞飞、吴恩达、Bengio等人的15大顶级深度学习课程
目前,深度学习和深度强化学习已经在实践中得到了广泛的运用.资源型博客sky2learn整理了15个深度学习和深入强化学习相关的在线课程,其中包括它们在自然语言处理(NLP),计算机视觉和控制系统中的应 ...
2017年度好视频，吴恩达、李飞飞、Hinton、OpenAI、NIPS、CVPR、CS231n全都在
我们经常被问:机器翻译迭代了好几轮,专业翻译的饭碗都端不稳了,字幕组到底还能做什么? 对于这个问题,我们自己感受最深,却又来不及解释,就已经边感受边做地冲出去了很远,摸爬滚打了一整年. 其实,现在看来 ...
DTCC 2020 | 阿里云李飞飞：云原生分布式数据库与数据仓库系统点亮数据上云之路
简介: 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁.阿里云数据库产品事业部总裁.ACM杰出科学家李飞飞就<云原生分布式数 ...
CVPR2020最新论文扫描盘点（下）
CVPR2020最新论文扫描盘点(下) 最近计算机视觉三大顶会之一CVPR2020接收结果已经公布,一共有1470篇论文被接收,接收率为22%,相比去年降低3个百分点,竞争越来越激烈.这里整理来自Tw ...
CS231n 斯坦福李飞飞视觉识别课程
本文是个人在学习<CS231n 斯坦福李飞飞视觉识别课程>的学习笔记. 第一讲:课程简介课时1 计算机视觉概述课时2 计算机视觉历史背景课时3 课程后勤选读书籍<DeepLe ...
CVPR2020最新论文扫描盘点（上）
CVPR2020最新论文扫描盘点(上) 最近计算机视觉三大顶会之一CVPR2020接收结果已经公布,一共有1470篇论文被接收,接收率为22%,相比去年降低3个百分点,竞争越来越激烈.这里整理来自Tw ...
物体的三维识别与6D位姿估计：PPF系列论文介绍（三）
作者:仲夏夜之星 Date:2020-04-08 来源:物体的三维识别与6D位姿估计:PPF系列论文介绍(三) 文章“A Method for 6D Pose Estimation of Free-F ...

随机推荐

Leetcode 063 不同路径二
一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为"Start" ). 机器人每次只能向下或者向右移动一步.机器人试图达到网格的右下角(在下图中标记为" ...
php获取远程图片并把它保存到本地
/* *功能:php多种方式完美实现下载远程图片保存到本地 *参数:文件url,保存文件名称,使用的下载方式 *当保存文件名称为空时则使用远程文件原来的名称 */ function getImage( ...
SpringBoot2整合Redis缓存
遵循SpringBoot三板斧第一步加依赖  <dependency> <groupId>org.springframework.bo ...
spring——AOP原理及源码（三）
在上一篇中,我们创建并在BeanFactory中注册了AnnotationAwareAspectJAutoProxyCreator组件.本篇我们将要探究,这个组件是在哪里以及何时发挥作用的. 调试的起 ...
利用wps创建有目录的PDF/word
为什么要创建: 在阅读一些行业规范或者很长的文件,像是项目管理方案时,非常麻烦,定位需要重新返回目录去.--->所以我想能不能创建一个带目录的PDF,可以点击直接跳转,那就方便多了. 如何创建: ...
Python - requests发送请求报错：UnicodeEncodeError: 'latin-1' codec can't encode characters in position 13-14: 小明 is not valid Latin-1. Use body.encode('utf-8') if you want to send it encoded in UTF-8.
背景在做接口自动化的时候,Excel作为数据驱动,里面存了中文,通过第三方库读取中文当请求参数传入 requests.post() 里面,就会报错 UnicodeEncodeError: 'lati ...
spring boot 调度任务
1.引入spring boot所依赖的jar包 <parent> <groupId>org.springframework.boot</groupId> < ...
如何将zTree选中节点传递给后台
获取zTree选中节点 <body> <script type="text/javascript"> var setting = { view: { dbl ...
seo搜索优化技巧02-seo问答推广怎么做?
问答推广就是以用户的‌‌角度去提问,这些问题内容就是用户搜索想要知道的.简单来说通过第三方平台站在用户的角度去帮助客户解答问题,同时附带自身的品牌和产品信息就是问答推广. 常见的问答平台有百度知道. ...
eclipse代码提示完善
转载请注明出处:https://www.cnblogs.com/Higurashi-kagome/p/12263267.html 1.参考https://blog.csdn.net/ithomer/a ...

李飞飞团队最新论文：基于anchor关键点的类别级物体6D位姿跟踪

李飞飞团队最新论文：基于anchor关键点的类别级物体6D位姿跟踪的更多相关文章

随机推荐

热门专题