【抓取】6-DOF GraspNet 论文解读

【注】:本文地址:【抓取】6-DOF GraspNet 论文解读

若转载请于明显处标明出处。

前言

这篇关于生成抓取姿态的论文出自英伟达。我在读完该篇论文后我简单地对其进行一些概述,如有错误纰漏请指正!

论文概要

生成抓握姿势是机器人物体操纵任务的关键组成部分。 在本工作中,作者提出了抓取生成问题,即使用变分自动编码器对一组抓取进行采样,并利用抓取评估器模型对采样抓取进行评估微调细化。 抓取采样器和抓取refine网络都以深度相机观察到的三维点云作为输入。 作者评估了在模拟和现实世界机器人实验中的方法。 其方法在具有不同外观、尺度和权重的各种常用对象上获得88%的成功率。 作者直接在模拟环境中训练而在现实场景下进行实验测试,这其中没有任何额外的步骤。

整体网络概述

整体网络结构如下图:

首先,输入三维点云,通过 Grasp Sampler 也就是抓取采样网络,得到多个抓取;然后通过一个 Grasp Evaluater ,评估上一步生成的抓取的成功与否;在评估这一步中,通过 Grasp Refinement 将估计的抓取结果进行微调,使其更贴近于合理抓取,进一步地增大了抓取的成功率。

下面具体来讲一下每一部分。

Variational Grasp Sampler

抓取采样网络本质上是一个VAE,也就是变分自编码器。输入 \(X\) 是对原始目标三维点云采样得到的各个视角下的目标点云, \(g\) 其实就是抓取姿态,也就是抓取器在目标坐标系下的 \(R\) 和 \(T\)。通过VAE的编码器Q,将输入编码到隐层空间,得到低维度的隐层变量 \(z\) ,使其满足单位高斯分布;然后再通过对隐层变量 \(z\) 解码,得到与输入相近的 \(g\) 。整个VAE的训练过程就是让z尽量服从上面所说的单位高斯分布,所以在测试的时候,去掉Encoder,直接在单位高斯分布中随机取样,取代了需要编码得到的隐层变量 \(z\) ,再加上输入点云 \(X\) ,就可以得到网络所认为的绝对正确的重建抓取 \(\hat{g}\) 。在训练中,VAE的损失函数如下:

\[\mathcal{L}_{\mathrm{vae}}=\sum_{z \sim Q, g \sim G^{*}} \mathcal{L}(\hat{g}, g)-\alpha \mathcal{D}_{K L}[Q(z \mid X, g), \mathcal{N}(0, I)]
\]

该式采用随机梯度下降优化。 对于每个mini-batch,点云 \(X\) 从随机视点观察采样。 对于采样点云 \(X\) ,抓取 \(g\) 从Ground Truth集合\(G^{*}\)采用分层采样。

上式中的 \(\mathcal{L}(g, \hat{g})\) 具体式子如下:

\[\mathcal{L}(g, \hat{g})=\frac{1}{n} \sum\|\mathcal{T}(g ; p)-\mathcal{T}(\hat{g} ; p)\|_{1}
\]

此式约束重建抓取与输入抓取相近。 \(\mathcal{T}(\cdot ; p)\) 是机器人夹持器上一组预定义点 \(p\) 的变换,什么意思呢?换句话说就是,在目标坐标系中,把抓取器的模型通过 \(R\) 和 \(T\) 作变换,从而转变为目标坐标系下的抓取器点云。

Grasp Pose Evaluation

因为前一步生成的抓取在网络看来他一定是正确的(因为他认为自己的 \(z\) 服从单位高斯分布,那么从单位高斯分布中取样重建出的 \(\hat{g}\) 一定是正确的抓取),所以实际上要想知道生成的抓取在我们看来是否可行,就还需要加一个判断。因此作者在抓取采样网络之后加了个抓取姿态评估网络。

整个评估网络实质上是一个二分类网络,输入是目标和抓取器的合成渲染点云 \(X \cup X_{g}\) ,输出是成功率 \(s\) 。利用交叉熵损失优化抓取评价网络:

\[\mathcal{L}_{\text {evaluator }}=-(y \log (s)+(1-y) \log (1-s))
\]

式中 \(y\) 是抓取的Ground Truth二进制标签,1/0 代表 成功/失败。

在训练中采取了hard negative mining(有翻译叫他难负例挖掘),简单俩说就是建立了一个错题集 \(G^{-}\) :

\[G^{-}=\left\{g^{-} \mid \exists g \in G^{*}: \mathcal{L}\left(g, g^{-}\right)<\epsilon\right\}
\]

在训练过程中,这个错题集中包含:

  1. 从一组预先生成的负抓取中采样 \(g^{-}\) ;
  2. 或者通过随机扰动正抓取集 \(G^{*}\) 中的 \(g\) 使夹持器的网格要么与物体网格碰撞,要么将夹持器网格远离物体。

Iterative Grasp Pose Refinement

前面说完了,这一部分我觉得才是重点部分!通过前面的评估,已经得到了一些成功和失败的抓取例子,那么怎么提高成功率呢?换句话说,怎么让估计出来的抓取 \(g\) 更好呢?

为了达到这个目的,作者想到了一个巧妙的办法,既然评估网络中的 \(s\) 越大代表越可能成功,那么使得这些 \(s\) 都尽可能地变大并且趋近于1也就能让抓取 \(g\) 更好了呗~

实际上这就代表了能让 \(s\) 相对于 \(g\) 的函数 \(S\) 值变大的方向。这个方向就是 \(S\) 相对于 \(g\) 的梯度方向,也就得到了下面的式子:

\[\Delta g=\frac{\partial S}{\partial g}=\eta \times \frac{\partial S}{\partial \mathcal{T}(g ; p)} \times \frac{\partial \mathcal{T}(g ; p)}{\partial g}
\]

如果上面不理解,也没关系,有点绕口。我说一个一维曲线的例子。

如上图所示,\(y=f(\theta x)\) 代表拟合出来的曲线,其中 \(\theta\) 代表 \(x\) 的系数(等同于网络的权重参数)。现在假如输入是 \(x_{1}\) ,输出是 \(y_{1}\),然后我已知 \(y_{2}\) 是一个更好更大的输出值,那么我就需要改变 \(x\) 的值,让 \(x_{1}\) 变成 \(x_{2}\) :

\[x_{2}=x_{1}+\Delta x
\]

那么变化量 \(\Delta x\) 怎么得到呢?在这个例子里, \(x\) 变化无非两种情况,要么变大要么变小,要想知道我们需要他变大还是变小,只需要让函数 \(f\) 对 \(x\) 求导就得到了斜率,斜率就指明了 \(x\) 变化方向。在这个例子里面 \(x\) 变化方向是 \(x\) 轴的正方向。得到了变化方向我们乘上一个步长 \(\eta\) 就得到了我们需要的变化量 \(\Delta x\) :

\[\frac{\partial f}{\partial x} \cdot \eta=\Delta x
\]

Experiments

实验部分暂时不说了,作者说这抓取效果就是好反正。其他自对比实验也很有意义,有空再更。

【抓取】6-DOF GraspNet 论文解读的更多相关文章

  1. 写论文,没数据?R语言抓取网页大数据

    写论文,没数据?R语言抓取网页大数据 纵观国内外,大数据的市场发展迅猛,政府的扶持也达到了空前的力度,甚至将大数据纳入发展战略.如此形势为社会各界提供了很多机遇和挑战,而我们作为卫生(医学)统计领域的 ...

  2. 《T-GCN: A Temporal Graph Convolutional Network for Traffic Prediction》 论文解读

    论文链接:https://arxiv.org/abs/1811.05320 最近发现博客好像会被CSDN和一些奇怪的野鸡网站爬下来?看见有人跟爬虫机器人单方面讨论问题我也蛮无奈的.总之原作者Misso ...

  3. 从单一图像中提取文档图像:ICCV2019论文解读

    从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...

  4. GSM Sniffing入门之软件篇:GSMTAP抓取与SMS(Short Message Service)

    重点介绍如何利用50元左右的设备,抓包并还原SMS短信内容: ps:研究GSM Sniffing纯属个人兴趣,能抓SMS报文只是捡了个明文传输的漏子,切勿用于非法用途.就像sylvain说的,osmo ...

  5. 如何使用JAVA语言抓取某个网页中的邮箱地址

    现实生活中咱们常常在浏览网页时看到自己需要的信息,但由于信息过于庞大而又不能逐个保存下来. 接下来,咱们就以获取邮箱地址为例,使用java语言抓取网页中的邮箱地址 实现思路如下: 1.使用Java.n ...

  6. 学习笔记CB010:递归神经网络、LSTM、自动抓取字幕

    递归神经网络可存储记忆神经网络,LSTM是其中一种,在NLP领域应用效果不错. 递归神经网络(RNN),时间递归神经网络(recurrent neural network),结构递归神经网络(recu ...

  7. android adb命令 抓取系统各种 log

    getLog.bat: adb root adb remount adb wait-for-device adb logcat -v time > C:\log.txt 在Android中不同的 ...

  8. 用python做网页抓取与解析入门笔记[zz]

    (from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network A ...

  9. AAAI2019 | 基于区域分解集成的目标检测 论文解读

    Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测 论文解读 作者 | 文永亮 学 ...

随机推荐

  1. CodeForces 1408I Bitwise Magic

    题意 给定三个整数 \(n,k,c\) 和一个长度为 \(n\) 的序列 \(a\),保证 \(a_i\) 互不相同.可以操作 \(k\) 次,每次随机选择一个 \(a_i\) 变成 \(a_i-1\ ...

  2. python获取当前时间、今天零点、235959点、昨天当前时间、明天的当前时间

    python获取当前时间.今天零点.23:59:59点.昨天当前时间.明天的当前时间. 关注公众号"轻松学编程"了解更多. 获取当前时间.今天零点 使用timedalte. tim ...

  3. Java集合(类)框架(三)

    1. Map集合 相较于List和Set集合而言,Map集合所储存的数据为双列行,数据是以key和value为一个单位进行存储的,如在建立一个学生Map的时候,其中的数据应为 学号-姓名(key-va ...

  4. UVA12558 埃及分数 Egyptian Fractions

    题意描述 题目描述的翻译挺清楚的了. 和原题的区别是多了禁用的分母.(还有毒瘤输入输出) 算法分析 显然这道题没有什么很好的数学方法来解决,所以可以使用搜索. 由于不确定深度,深搜显然无穷无尽. 所以 ...

  5. 快进来!花几分钟看一下 ReentrantReadWriteLock 的原理!

    前言 在看完 ReentrantLock 之后,在高并发场景下 ReentrantLock 已经足够使用,但是因为 ReentrantLock 是独占锁,同时只有一个线程可以获取该锁,而很多应用场景都 ...

  6. c++11-17 模板核心知识(二)—— 类模板

    类模板声明.实现与使用 Class Instantiation 使用类模板的部分成员函数 Concept 友元 方式一 方式二 类模板的全特化 类模板的偏特化 多模板参数的偏特化 默认模板参数 Typ ...

  7. php 之根据mysql字段 批量生成 array 数组

    ci框架 验证字段 需要 生成类似为: array('field' => 'admin_id','label' => '账号ID','rules' => 'integer'),    ...

  8. java联系人管理系统简单设计

    本文实例为大家分享了java联系人管理系统毕业设计,供大家参考,具体内容如下 要求:  请使用XML保存数据,完成一个联系人管理系统.      用户必须经过认证登录后方可以使用系统.      注册 ...

  9. VC6最基本

    高级语言C++程序设计[chap4][p119-1][我的自考书-刘璟周玉龙书] 1.VC6使用: <1>.编译:"Build"-->"Compile& ...

  10. 第三方库文件Joi对数据进行验证的方法以及解决Joi.validate is not a function的问题

    Joi:javaScript对象的规则描述语言和验证器 1.npm install joi@14.3.1 2.建立joi.js文件 3.导入第三方包joi const Joi = require('j ...