ICRA 2019最佳论文公布李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文

机器人领域顶级会议 ICRA 2019 正在加拿大蒙特利尔举行（当地时间 5 月 20 日-24 日），刚刚大会公布了最佳论文奖项，来自斯坦福大学李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文。

图源：https://twitter.com/animesh_garg/status/1131263955622604801

ICRA 最佳论文奖项设立于 1993 年，旨在表彰最优秀的论文。据了解，今年一共有三篇论文入围最佳论文奖项：

论文 1：Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks
作者：Michelle A. Lee, Yuke Zhu, Krishnan Srinivasan, Parth Shah, Silvio Savarese, Li Fei-Fei, Animesh Garg, Jeannette Bohg（斯坦福大学）
论文链接：https://arxiv.org/abs/1810.10191
论文 2：Deep Visuo-Tactile Learning: Estimation of Tactile Properties from Images
作者：Kuniyuki Takahashi, Jethro Tan（Preferred Networks 公司）
论文链接：https://arxiv.org/abs/1803.03435
论文 3：Variational End-to-End Navigation and Localization
作者：Alexander Amini, Guy Rosman, Sertac Karaman, Daniela Rus（MIT、丰田研究院）
论文链接：https://arxiv.org/abs/1811.10119

ICRA 最佳论文

其中，斯坦福大学 Michelle A. Lee、Yuke Zhu、李飞飞等人的论文《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》荣获最佳论文奖项。

摘要：在非结构化环境中执行需要大量接触的操纵任务通常需要触觉和视觉反馈。但是，手动设计机器人控制器使其结合具备不同特征的模态并不容易。尽管深度强化学习在学习高维输入的控制策略时获得了很大成功，但由于样本复杂度，这些算法通常很难在真实机器人上面部署。

该研究使用自监督学习感知输入的紧凑、多模态表征，然后使用这些表征提升策略学习的样本效率。研究者在植入任务上评估了该方法，结果表明该方法对于外部扰动具备稳健性，同时可以泛化至不同的几何、配置和间隙（clearances）。研究者展示了在模拟环境中和真实机器人上的结果。

该研究提出的多模态表征学习模型架构如下图所示：

图 2：利用自监督进行多模态表征学习的神经网络架构。该网络使用来自三个不同传感器的数据作为模型输入：RGB 图像、力矩传感器在 32ms 窗口上读取的力矩数据、末端执行器的位置和速度。该模型将这些数据编码并融合为多模态表征，基于这些多模态数据可学习用控制器执行需要大量接触的操纵。这一表征学习网络是通过自监督端到端训练得到的。

控制器设计

下图展示了该研究的控制器架构，该架构可分为三部分：轨迹生成、阻抗控制和操作空间控制。

实验

下图展示了该模型在模拟环境中的训练。图 a 展示了 TRPO 智能体的训练曲线：

图 4：模拟植入任务：对基于不同感知模态数据训练得到的表征进行模型简化测试。研究者将使用结合了视觉、触觉和本体感觉的多模态表征训练得到的完整模型和未使用这些感知训练的基线模型进行了对比。b 图展示了使用不同反馈模态的部分任务完成率，其中视觉和触觉模态在接触丰富的任务中发挥不可或缺的作用。

下图展示了在真实环境中的模型评估。

图 5：a）在真实机器人实验及其间隙上使用 3D 打印 peg。b）定性预测：研究者对来自其表征模型的光流预测示例进行可视化。

下图展示了在真实机器人上对该模型的评估，同时展示了该模型在不同任务设置上的泛化效果。

最佳论文入围论文简介

另外两篇入围最佳论文的研究分别是来自日本 Preferred Networks 公司的《Deep Visuo-Tactile Learning: Estimation of Tactile Properties from Images》，以及来自 MIT 和丰田研究院的《Variational End-to-End Navigation and Localization》。

论文：Deep Visuo-Tactile Learning: Estimation of Tactile Properties from Images

摘要：基于视觉估计触觉特性（如光滑或粗糙）对与环境进行高效互动非常重要。这些触觉特性可以帮助我们决定下一步动作及其执行方式。例如，当我们发现牵引力不足时可以降低驾驶速度，或者如果某物看起来很光滑我们可以抓得更紧一些。

研究者认为这种能力也会帮助机器人增强对环境的理解，从而面对具体环境时选择恰当的行为。因此他们提出了一种模型，仅基于视觉感知估计触觉特性。该方法扩展了编码器-解码器网络，其中潜变量是视觉和触觉特征。

与之前的研究不同，该方法不需要手动标注，仅需要 RGB 图像及对应的触觉感知数据。所有数据都是通过安装在 Sawyer 机器人末端执行器上的网络摄像头和 uSkin 触觉感知器收集的，涉及 25 种不同材料的表面。研究者展示了该模型可以通过评估特征空间，泛化至未包含在训练数据中的材料，这表明该模型学会了将图像和重要的触觉特性关联起来。

该研究提出的网络架构图示。

论文：Variational End-to-End Navigation and Localization

摘要：深度学习彻底变革了直接从原始感知数据学习「端到端」自动车辆控制的能力。虽然最近在处理导航指令形式的扩展方面取得了一些进步，但这些研究还无法捕捉机器人所有可能动作的完整分布，也无法推断出机器人在环境中的定位。

在本文中，研究者扩展了能够理解地图的端到端驾驶网络。他们定义了一个新的变分网络，该网络能够根据环境的原始相机数据和更高级路线图进行学习，以预测可能的控制指令的完整概率分布，以及能够在地图内指定路线上导航的确定性控制指令。

此外，受人类驾驶员可以进行粗略定位的启发，研究者根据地图和观察到的视觉道路拓扑之间的对应关系，制定了如何使用其模型来定位机器人的方案。研究者在真实驾驶数据上评估了该算法，并推断了在不同类型的丰富驾驶场景下推断的转向命令的稳健性。另外，他们还在一组新的道路和交叉路口上评估了其定位算法，并展示了该模型在没有任何 GPS 先验的情况下也具备粗略定位的能力。

模型架构。

ICRA 其他奖项

除了最佳论文，ICRA 大会还设置了最佳学生论文，以及自动化、认知机器人、人机交互等分支的最佳论文。

其中获得最佳学生论文提名的研究有：

论文 1：Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience
作者：Yevgen Chebotar, Ankur Handa, Viktor Makoviichuk, Miles Macklin, Jan Isaac, Nathan Ratliff, Dieter Fox（英伟达、南加州大学、哥本哈根大学、华盛顿大学）
论文链接：https://arxiv.org/abs/1810.05687
论文 2：Online Multilayered Motion Planning with Dynamic Constraints for Autonomous Underwater Vehicles
作者：Eduard Vidal Garcia, Mark Moll, Narcis Palomeras, Juan David Hernández, Marc Carreras, Lydia Kavraki（西班牙赫罗纳大学水下机器人实验室、美国莱斯大学 Kavraki 实验室）
论文链接：http://www.kavrakilab.org/publications/vidal2019online-multilayered-motion-planning.pdf
论文 3：Drift-free Roll and Pitch Estimation for High-acceleration Hopping
作者：Justin K. Yim, Eric K. Wang, Ronald Fearing（加州大学伯克利分校）
论文链接：https://people.eecs.berkeley.edu/~ronf/PAPERS/jyim-icra2019.pdf

ICRA 2019最佳论文公布李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文的更多相关文章

2017年度好视频，吴恩达、李飞飞、Hinton、OpenAI、NIPS、CVPR、CS231n全都在
我们经常被问:机器翻译迭代了好几轮,专业翻译的饭碗都端不稳了,字幕组到底还能做什么? 对于这个问题,我们自己感受最深,却又来不及解释,就已经边感受边做地冲出去了很远,摸爬滚打了一整年. 其实,现在看来 ...
李飞飞确认将离职！谷歌云AI总帅换人，卡耐基·梅隆老教授接棒
https://mp.weixin.qq.com/s/i1uwZALu1BcOq0jAMvPdBw 看点:李飞飞正式回归斯坦福,新任谷歌云AI总帅还是个教授,不过这次是全职. 智东西9月11日凌晨消息 ...
李飞飞、吴恩达、Bengio等人的15大顶级深度学习课程
目前,深度学习和深度强化学习已经在实践中得到了广泛的运用.资源型博客sky2learn整理了15个深度学习和深入强化学习相关的在线课程,其中包括它们在自然语言处理(NLP),计算机视觉和控制系统中的应 ...
CS231n 斯坦福李飞飞视觉识别课程
本文是个人在学习<CS231n 斯坦福李飞飞视觉识别课程>的学习笔记. 第一讲:课程简介课时1 计算机视觉概述课时2 计算机视觉历史背景课时3 课程后勤选读书籍<DeepLe ...
DTCC 2020 | 阿里云李飞飞：云原生分布式数据库与数据仓库系统点亮数据上云之路
简介: 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁.阿里云数据库产品事业部总裁.ACM杰出科学家李飞飞就<云原生分布式数 ...
论文解读（PCL）《Prototypical Contrastive Learning of Unsupervised Representations》
论文标题:Prototypical Contrastive Learning of Unsupervised Representations 论文方向:图像领域,提出原型对比学习,效果远超MoCo和S ...
论文解读（DeepWalk）《DeepWalk: Online Learning of Social Representations》
一.基本信息论文题目:<DeepWalk: Online Learning of Social Representations>发表时间: KDD 2014论文作者: Bryan P ...
论文阅读：Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis
论文标题:Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis 论文链接:http://arxi ...
论文解读（BYOL）《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》
论文标题:Bootstrap Your Own Latent A New Approach to Self-Supervised Learning 论文方向:图像领域论文来源:NIPS2020 论文 ...

随机推荐

基于高德开放平台Map Lab的数据可视化
在Map Lab上创建可视化项目,首先需要添加数据.添加数据有4种方式,分别是: 上传CSV文件添加数据上传Excel文件添加数据连接在线数据库添加数据提供在线数据API添加数据一.数据上传说 ...
【转载】Asp .Net Web Api路由路径问题
原文章地址:https://www.cnblogs.com/devtester/p/8897302.html MVC也好,WebAPI也好,据我所知,有部分人是因为复杂的路由,而不想去学的.曾经见过一 ...
ES6 之 Proxy
概述 Proxy 用于修改某些操作的默认行为,等同于在语言层面做出修改. Proxy 可以理解在目标对象架设一个“拦截”层外界对该对象的访问都必须先通过这层拦截,因此提供了一种机制可以对外界的访问进行 ...
ICE使用记录
在使用ice中间件的过程中如果A继承了 ****Disp_类在使用A类的时候 ****Disp_类会浅表克隆该类出一个新的对象a 在调用重写的接口的时候是使用a 在主动调用A类的对象的时候使用的才 ...
javaweb 最简单的分页技术
原文来自于https://www.cnblogs.com/xwlych/p/6017833.html 个人由加了一点注释,他的代码我运行不起来,弄了好一会 bean包 User.java packa ...
Elasticsearch 过滤
章节 Elasticsearch 基本概念 Elasticsearch 安装 Elasticsearch 使用集群 Elasticsearch 健康检查 Elasticsearch 列出索引 Elas ...
Object.keys(),Object.values(),Object.entries()
(1)Object.keys() // 返回数组,成员是参数对象自身的(不含继承的)所有可遍历(enumerable)属性的键名. eg:var obj = {a:1,b:'gy'} Ob ...
ZOJ - 2671 Cryptography（线段树+求区间矩阵乘积）
题意:已知n个矩阵(下标从1开始),求下标x~y区间矩阵的乘积.最多m次询问,n ( 1 <= n <= 30,000) and m ( 1 <= m <= 30,000). ...
UVA - 1643 Angle and Squares （角度和正方形）（几何）
题意:第一象限里有一个角,把n(n <= 10)个给定边长的正方形摆在这个角里(角度任意),使得阴影部分面积尽量大. 分析:当n个正方形的对角线在一条直线上时,阴影部分面积最大. 1.通过给定的 ...

ICRA 2019最佳论文公布 李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文

ICRA 2019最佳论文公布 李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文的更多相关文章

随机推荐

热门专题

ICRA 2019最佳论文公布李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文

ICRA 2019最佳论文公布李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文的更多相关文章