[ICRA 2019]Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images

简介

本文作者提出新的框架(MTTM)，使用模板匹配来完成多个任务，从深度图的模板上找到目标物体，通过比较模板特征图与场景特征图来预测分割mask和模板与检测物体之间的位姿变换。作者提出的特征网络通过模板与剪裁特征的对比来计算分割mask，预测位姿。通过实验表明尽管只使用深度图，但是效果很好。

论文针对生活中见到的物体，但是数据集或者CAD模型并不能覆盖所有物体，这样就需要额外的训练时间和新物体的样本图像来重新训练。而基于CNN的局部或全局描述符使用合成渲染图像和少量的真实图像训练之后，对于新物体则不需要重新训练，也不需要GPU。

创新点

最新的研究表明物体的几何信息比纹理信息更重要，因为生活中很多物体都可以使用相同形状的模板来表示。因此可以仅使用深度信息来检索具有相同几何形状和方向的最近邻模板。有点像NOCS里面提到的使用一个标准化的模型，通过对模型的缩放来表示相同的物体。而且深度图像对不同的光照条件和环境具有更强的鲁棒性。所以可以使用综合渲染图像进行训练。

1.提出一个新的基于深度的框架——MTTM，通过与模板进行近邻匹配，使用共享的特征图来预测分割mask和物体的位姿。

2.不需要将物体与场景对齐来生成mask。

3.这种方法优于使用RGB的baseline方法。

上图为遮挡数据集上的效果，上面为给定ROI中心的分割结果，下面为使用近邻模板和五次ICP细化得到的物体位姿。

方法

1.渲染噪声深度图：与之前的工作相比，作者只使用合成图像进行训练，所以可以应用于任何没有足够训练数据的领域。通过模拟摄像机来呈现有噪声的深度图像，从而不需要真实的图像或任何额外的噪声增强。

2.网络结构：在预测目标物体分割mask、最近邻模板到场景中物体位姿变换的同时，网络提取测试场景中感兴趣区域的特征描述符来检索最近邻模板。

如上图所示，使用Resnet-50作为骨干网络，用Imagenet数据集上训练的权重进行初始化。原始网络需要三通道的彩色图像作为输入，而深度图为单通道，需要将深度图像转换成三通道的图像。所以作者使用曲面法线的x、y、z分量作为像素的每个通道。将Resnet-50的第三个残差块的输出作为给定输入图像的特征图，通过增加带有256个滤波器的3×3卷积层来减少特征图的维数。与MaskRCNN一样使用双线性插值来剪裁特征图。

每个特征图用于多个任务：提取用于流行学习的描述符，预测mask以及使用成对的特征图进行位姿回归。描述符用全连接层进行计算，滤波器大小为256、256、128，最后一层为线性激活，其余层均为elu激活。

由一个场景和一个模板组成的一对ROI特征图，分别使用256个滤波器进行3×3卷积，然后按通道级联特征图。因此连接后的特征图的输出维度为14×14×512。在特征比较网络中，将合并后的特征图分别用于mask预测和位姿回归。在mask预测中，使用一个具有256个滤波器的3×3卷积层和一个具有sigmoid激活函数的单通道输出的1×1卷积层来表示逐像素的mask预测。对于位姿回归，全连接层的最后一层使用双曲线正切作为激活函数，得到四元数对的位姿差。

3.多任务学习网络：相似位姿间特征向量的距离应小于不同物体或不同位姿之间的距离。与之前使用剪裁图像块的论文相比，作者计算整个场景的特征图来剪裁每个ROI的特征图。对于包含多个物体的训练场景，为每个物体分配正负模板，正模板从同一类中最接近的五个模板中选择，负模板从不同类别或者同一物体的不同位姿中随机选择，一半来自相同类别，一半来自不同类别。

对称物体位姿的相似性测量：

s(q)p表示渲染图像内位姿q中像素p的深度图。

两个视图之间的位姿距离：

q是物体位姿的旋转四元数。当位姿距离大于正模板时，作为负模板。

4.目标检测和位姿假设生成：在输入场景中，对中心像素进行均匀采样，生成具有固定空间大小的ROI区域。采样点p的ROI区域宽度和高度用w来表示。 $W_{p}=S_{size}\frac{f}{d_{p}}$

d为每个采样点的深度值，f为焦距，Ssize为覆盖三维空间中目标物体的最大尺寸。将物体的长宽比和空间比例保存在特征图中。计算每个ROI区域的特征向量，并使用Kd-Tree搜索在欧式空间中找到近邻模板，并计算特征距离。

从匹配步骤开始，选择距离近邻模板较近的ROI来预测分割mask，然后使用预先计算的模板特征图对所选的ROI预测mask。每个来自特征比较网络的分割mask都被调整为原来大小。为了消除冗余的预测mask，采用非极大抑制算法合并重叠mask。然后使用预测的分割mask过滤特征图中的背景，与改进的模板再次匹配。然后估计最终的mask和位姿。

5.后处理过程：如果给定目标物体的CAD模型，可以得到每个假设的精确渲染，后处理过程很容易。在没有CAD模型的情况下，使用深度图像和一组模板来获得最佳的位姿结果很有挑战性。所以作者使用CAD模型来评估生成的位姿，细化预测的位姿。

如果在使用下采样点进行三次ICP迭代后，预测的分割mask与第一个位姿假设的渲染区域之间的重叠小于30%，则移除该区域。将剩余区域内的假设迭代细化，并对其进行评估。

渲染深度图与场景之间的不同由内点数量 $N_{i}$ ，遮挡点数量 $N_{occ}$ ，离群点数量 $N_{out}$ ，渲染模型点数量 $N_{m}$ 计算得到。异常值的惩罚项为： $P_{O}=1-\frac{N_{out}}{N_{m}}$ ，因此深度适合度为： $S_{D}=\frac{P_{O}N_{i}}{N_{m}-N_{OCC}}$ ,重叠边界点的比率为 $S_{B}$ ,匹配表面法线的比率为 $S_{N}$ ,最后的分数为： $S_{final}=S_{D}S_{B}S_{N}$ ,用来过滤错误的检测，选择最佳的预测。

实验和结果

1.分割的评价：

MTTM的优点是可以预测分割mask，而不需要将目标与场景对齐，因此可以评估分割性能。为了注释数据集上的分割mask，使用ground truth位姿来放置物体并计算测试图与渲染图之间的差异，以确定哪个像素属于属于哪个物体。如果一个像素的深度差小于2厘米，则该像素被标记为物体的一部分。

其他分割方法为：

1)利用物体的注意点从场景中分割物体:使用测试场景中的物体中心作为注意点。

2)基于边缘的分割方法。

如上表所示，MTTM的分割结果优于其他使用RGB和深度值的方法，这说明MTTM利用近邻模板的特征来预测目标物体的分割mask，而不是利用物体的一般边界。

上图为同一图像中两个相似ROI的匹配结果，从不同类别中检索近邻模板，mask预测会发生显著变化。

2.目标检测和位姿估计的评价：

假设目标物体在场景中是可见的，在后处理过程中，移除重叠小于30%的区域后，选择内点比较大的50个区域的最大值来计算最终得分S，得分最高的15个假设通过最多30次ICP迭代来细化，然后重新计算最终得分，来确定最佳预测。

由于之前没有仅使用深度图像与模板进行匹配来检测物体和位姿估计，所以作者与基于模板的方法来进行比较。如下表所示，尽管baseline方法使用了颜色和深度信息，但MTTM在八个物体上六个性能更好。第二列为不进行位姿预测的结果，效果不如使用位姿预测的结果。

3.真实模板与新物体的预测结果：

下图是使用linemod数据集中物体的真实模板得到的结果。

下图为使用T-less数据集得到的结果，数据库只是简单的替换为真实的图像，不需要进一步训练。绿色框为真实位姿，红色框为预测位姿。由于这些物体是训练集中没有的，所以在去除背景点之后检索性能变差。

[ICRA 2019]Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images的更多相关文章

OpenCV Template Matching Subpixel Accuracy
OpenCV has function matchTemplate to easily do the template matching. But its accuracy can only reac ...
[ICCV 2019] Weakly Supervised Object Detection With Segmentation Collaboration
新在ICCV上发的弱监督物体检测文章,偷偷高兴一下,贴出我的poster,最近有点忙,话不多说,欢迎交流- https://arxiv.org/pdf/1904.00551.pdf http://op ...
ICRA 2019最佳论文公布李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文
机器人领域顶级会议 ICRA 2019 正在加拿大蒙特利尔举行(当地时间 5 月 20 日-24 日),刚刚大会公布了最佳论文奖项,来自斯坦福大学李飞飞组的研究<Making Sense of ...
读论文系列：Object Detection NIPS2015 Faster RCNN
转载请注明作者:梦里茶 Faster RCNN在Fast RCNN上更进一步,将Region Proposal也用神经网络来做,如果说Fast RCNN的最大贡献是ROI pooling layer和 ...
论文阅读笔记五十三：Libra R-CNN: Towards Balanced Learning for Object Detection(CVPR2019)
论文原址:https://arxiv.org/pdf/1904.02701.pdf github:https://github.com/OceanPang/Libra_R-CNN 摘要相比模型的结构 ...
读论文系列：Object Detection ICCV2015 Fast RCNN
Fast RCNN是对RCNN的性能优化版本,在VGG16上,Fast R-CNN训练速度是RCNN的9倍, 测试速度是RCNN213倍:训练速度是SPP-net的3倍,测试速度是SPP-net的3倍 ...
Viola–Jones object detection framework--Rapid Object Detection using a Boosted Cascade of Simple Features中文翻译及 matlab实现(见文末链接)
ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001 Rapid Object Detection using a B ...
object detection 总结
1.基础自己对于YOLOV1,2,3都比较熟悉. RCNN也比较熟悉.这个是自己目前掌握的基础2.第一步看一下2019年的井喷的anchor free的网络3.第二步看一下以往,引用多的网路4. ...
论文阅读之　DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation
DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation Xia ...

随机推荐

爬虫入门（四）：urllib2
主要使用python自带的urllib2进行爬虫实验. 写在前面的蠢事:本来新建了一个urllib2.py便于好认识这是urllib2的实验,结果始终编译不通过,错误错误.不能用Python的关键字( ...
flume install
flume install flume 安装 123456 [root@10 app][root@10 app]# mv apache-flume-1.7.0-bin /mnt/app/flume[r ...
Ubuntu 18.04 国内的 apt 源
一.Ubuntu 18.04 国内的 apt 源 1. 阿里源 deb http://mirrors.aliyun.com/ubuntu/ bionic main restricted univers ...
什么是HDFS？算了，告诉你也不懂。
前言只有光头才能变强. 文本已收录至我的GitHub精选文章,欢迎Star:https://github.com/ZhongFuCheng3y/3y 上一篇已经讲解了「大数据入门」的相关基础概念和知 ...
YA157C交叉编译环境搭建
目录 1.开发板简介 3.主机搭建交叉编译环境 4.编译第一个ARM Linux程序--Hello World 5.在开发板上运行Hello World程序 6.ssh登录开发板 7.注意 8.she ...
Angular 1 深度解析：脏数据检查与 angular 性能优化
TL;DR 脏检查是一种模型到视图的数据映射机制,由 $apply 或 $digest 触发. 脏检查的范围是整个页面,不受区域或组件划分影响使用尽量简单的绑定表达式提升脏检查执行速度尽量减少页面 ...
fsLayuiPlugin多数据表格使用
fsLayuiPlugin 是一个基于layui的快速开发插件,支持数据表格增删改查操作,提供通用的组件,通过配置html实现数据请求,减少前端js重复开发的工作. GitHub下载码云下载测试环 ...
vue之initComputed模块源码说明
要想理解原理就得看源码,最近网上也找了好多vue初始化方法(8个init恶魔...) 因为也是循序渐进的理解,对initComputed计算属性的初始化有几处看得不是很明白,网上也都是含糊其辞的(要想 ...
EventEmitter：从命令式 JavaScript class 到声明函数式的华丽转身
新书终于截稿,今天稍有空闲,为大家奉献一篇关于 JavaScript 语言风格的文章,主角是函数声明式. 灵活的 JavaScript 及其 multiparadigm 相信"函数式&quo ...

[ICRA 2019]Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images

简介

创新点

方法

实验和结果

[ICRA 2019]Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images的更多相关文章

随机推荐

热门专题