简介

        本文作者提出新的框架(MTTM),使用模板匹配来完成多个任务,从深度图的模板上找到目标物体,通过比较模板特征图与场景特征图来预测分割mask和模板与检测物体之间的位姿变换。作者提出的特征网络通过模板与剪裁特征的对比来计算分割mask,预测位姿。通过实验表明尽管只使用深度图,但是效果很好。
论文针对生活中见到的物体,但是数据集或者CAD模型并不能覆盖所有物体,这样就需要额外的训练时间和新物体的样本图像来重新训练。而基于CNN的局部或全局描述符使用合成渲染图像和少量的真实图像训练之后,对于新物体则不需要重新训练,也不需要GPU。

创新点

         最新的研究表明物体的几何信息比纹理信息更重要,因为生活中很多物体都可以使用相同形状的模板来表示。因此可以仅使用深度信息来检索具有相同几何形状和方向的最近邻模板。有点像NOCS里面提到的使用一个标准化的模型,通过对模型的缩放来表示相同的物体。而且深度图像对不同的光照条件和环境具有更强的鲁棒性。所以可以使用综合渲染图像进行训练。
1.提出一个新的基于深度的框架——MTTM,通过与模板进行近邻匹配,使用共享的特征图来预测分割mask和物体的位姿。
2.不需要将物体与场景对齐来生成mask。
3.这种方法优于使用RGB的baseline方法。
上图为遮挡数据集上的效果,上面为给定ROI中心的分割结果,下面为使用近邻模板和五次ICP细化得到的物体位姿。

方法

1.渲染噪声深度图与之前的工作相比,作者只使用合成图像进行训练,所以可以应用于任何没有足够训练数据的领域。通过模拟摄像机来呈现有噪声的深度图像,从而不需要真实的图像或任何额外的噪声增强。
2.网络结构在预测目标物体分割mask、最近邻模板到场景中物体位姿变换的同时,网络提取测试场景中感兴趣区域的特征描述符来检索最近邻模板。
如上图所示,使用Resnet-50作为骨干网络,用Imagenet数据集上训练的权重进行初始化。原始网络需要三通道的彩色图像作为输入,而深度图为单通道,需要将深度图像转换成三通道的图像。所以作者使用曲面法线的x、y、z分量作为像素的每个通道。将Resnet-50的第三个残差块的输出作为给定输入图像的特征图,通过增加带有256个滤波器的3×3卷积层来减少特征图的维数。与MaskRCNN一样使用双线性插值来剪裁特征图。
每个特征图用于多个任务:提取用于流行学习的描述符,预测mask以及使用成对的特征图进行位姿回归。描述符用全连接层进行计算,滤波器大小为256、256、128,最后一层为线性激活,其余层均为elu激活。
由一个场景和一个模板组成的一对ROI特征图,分别使用256个滤波器进行3×3卷积,然后按通道级联特征图。因此连接后的特征图的输出维度为14×14×512。在特征比较网络中,将合并后的特征图分别用于mask预测和位姿回归。在mask预测中,使用一个具有256个滤波器的3×3卷积层和一个具有sigmoid激活函数的单通道输出的1×1卷积层来表示逐像素的mask预测。对于位姿回归,全连接层的最后一层使用双曲线正切作为激活函数,得到四元数对的位姿差。
3.多任务学习网络相似位姿间特征向量的距离应小于不同物体或不同位姿之间的距离。与之前使用剪裁图像块的论文相比,作者计算整个场景的特征图来剪裁每个ROI的特征图。对于包含多个物体的训练场景,为每个物体分配正负模板,正模板从同一类中最接近的五个模板中选择,负模板从不同类别或者同一物体的不同位姿中随机选择,一半来自相同类别,一半来自不同类别。
对称物体位姿的相似性测量:
s(q)p表示渲染图像内位姿q中像素p的深度图。
两个视图之间的位姿距离:
q是物体位姿的旋转四元数。当位姿距离大于正模板时,作为负模板。
4.目标检测和位姿假设生成在输入场景中,对中心像素进行均匀采样,生成具有固定空间大小的ROI区域。采样点p的ROI区域宽度和高度用w来表示。
d为每个采样点的深度值,f为焦距,Ssize为覆盖三维空间中目标物体的最大尺寸。将物体的长宽比和空间比例保存在特征图中。计算每个ROI区域的特征向量,并使用Kd-Tree搜索在欧式空间中找到近邻模板,并计算特征距离。
从匹配步骤开始,选择距离近邻模板较近的ROI来预测分割mask,然后使用预先计算的模板特征图对所选的ROI预测mask。每个来自特征比较网络的分割mask都被调整为原来大小。为了消除冗余的预测mask,采用非极大抑制算法合并重叠mask。然后使用预测的分割mask过滤特征图中的背景,与改进的模板再次匹配。然后估计最终的mask和位姿。
5.后处理过程:如果给定目标物体的CAD模型,可以得到每个假设的精确渲染,后处理过程很容易。在没有CAD模型的情况下,使用深度图像和一组模板来获得最佳的位姿结果很有挑战性。所以作者使用CAD模型来评估生成的位姿,细化预测的位姿。
如果在使用下采样点进行三次ICP迭代后,预测的分割mask与第一个位姿假设的渲染区域之间的重叠小于30%,则移除该区域。将剩余区域内的假设迭代细化,并对其进行评估。
渲染深度图与场景之间的不同由内点数量  ,遮挡点数量  ,离群点 数量 ,渲染模型点数量  计算得到。异常值的惩罚项为:  ,因此深度适合度为:  ,重叠边界点的比率为  ,匹配表面法线的比率为 ,最后的分数为:  ,用来过滤错误的检测,选择最佳的预测。

实验和结果

1.分割的评价:
MTTM的优点是可以预测分割mask,而不需要将目标与场景对齐,因此可以评估分割性能。为了注释数据集上的分割mask,使用ground truth位姿来放置物体并计算测试图与渲染图之间的差异,以确定哪个像素属于属于哪个物体。如果一个像素的深度差小于2厘米,则该像素被标记为物体的一部分。
其他分割方法为:
1)利用物体的注意点从场景中分割物体:使用测试场景中的物体中心作为注意点。
2)基于边缘的分割方法。
如上表所示,MTTM的分割结果优于其他使用RGB和深度值的方法,这说明MTTM利用近邻模板的特征来预测目标物体的分割mask,而不是利用物体的一般边界。
上图为同一图像中两个相似ROI的匹配结果,从不同类别中检索近邻模板,mask预测会发生显著变化。
2.目标检测和位姿估计的评价:
假设目标物体在场景中是可见的,在后处理过程中,移除重叠小于30%的区域后,选择内点比较大的50个区域的最大值来计算最终得分S,得分最高的15个假设通过最多30次ICP迭代来细化,然后重新计算最终得分,来确定最佳预测。
由于之前没有仅使用深度图像与模板进行匹配来检测物体和位姿估计,所以作者与基于模板的方法来进行比较。如下表所示,尽管baseline方法使用了颜色和深度信息,但MTTM在八个物体上六个性能更好。第二列为不进行位姿预测的结果,效果不如使用位姿预测的结果。
3.真实模板与新物体的预测结果:
下图是使用linemod数据集中物体的真实模板得到的结果。
下图为使用T-less数据集得到的结果,数据库只是简单的替换为真实的图像,不需要进一步训练。绿色框为真实位姿,红色框为预测位姿。由于这些物体是训练集中没有的,所以在去除背景点之后检索性能变差。
 

[ICRA 2019]Multi-Task Template Matching for Object Detection, Segmentation and Pose Estimation Using Depth Images的更多相关文章

  1. OpenCV Template Matching Subpixel Accuracy

    OpenCV has function matchTemplate to easily do the template matching. But its accuracy can only reac ...

  2. [ICCV 2019] Weakly Supervised Object Detection With Segmentation Collaboration

    新在ICCV上发的弱监督物体检测文章,偷偷高兴一下,贴出我的poster,最近有点忙,话不多说,欢迎交流- https://arxiv.org/pdf/1904.00551.pdf http://op ...

  3. ICRA 2019最佳论文公布 李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文

    机器人领域顶级会议 ICRA 2019 正在加拿大蒙特利尔举行(当地时间 5 月 20 日-24 日),刚刚大会公布了最佳论文奖项,来自斯坦福大学李飞飞组的研究<Making Sense of ...

  4. 读论文系列:Object Detection NIPS2015 Faster RCNN

    转载请注明作者:梦里茶 Faster RCNN在Fast RCNN上更进一步,将Region Proposal也用神经网络来做,如果说Fast RCNN的最大贡献是ROI pooling layer和 ...

  5. 论文阅读笔记五十三:Libra R-CNN: Towards Balanced Learning for Object Detection(CVPR2019)

    论文原址:https://arxiv.org/pdf/1904.02701.pdf github:https://github.com/OceanPang/Libra_R-CNN 摘要 相比模型的结构 ...

  6. 读论文系列:Object Detection ICCV2015 Fast RCNN

    Fast RCNN是对RCNN的性能优化版本,在VGG16上,Fast R-CNN训练速度是RCNN的9倍, 测试速度是RCNN213倍:训练速度是SPP-net的3倍,测试速度是SPP-net的3倍 ...

  7. Viola–Jones object detection framework--Rapid Object Detection using a Boosted Cascade of Simple Features中文翻译 及 matlab实现(见文末链接)

    ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001 Rapid Object Detection using a B ...

  8. object detection 总结

    1.基础 自己对于YOLOV1,2,3都比较熟悉. RCNN也比较熟悉.这个是自己目前掌握的基础2.第一步 看一下2019年的井喷的anchor free的网络3.第二步 看一下以往,引用多的网路4. ...

  9. 论文阅读之 DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation

    DECOLOR: Moving Object Detection by Detecting Contiguous Outliers in the Low-Rank Representation Xia ...

随机推荐

  1. 修改从Maven中心仓库下载到本地的jar包的默认存储位置及远程仓库

    从Maven中心仓库下载到本地的jar包的默认存放在”${user.home}/.m2/repository”中,${user.home}表示当前登录系统的用户目录(如"C:\Users\g ...

  2. 第12章 Reference-RIL运行框架

    Reference-RIL完成两部分处理逻辑: 与LibRIL交互完成RIL消息的处理. 与Modem通信模块交互完成AT命令的执行. Reference-RIL的运行机制 主要涉及以下几个方面: R ...

  3. Mac下好玩的终端命令

    figlet brew install figlet cowsay brew install cowsaycowsay -l: 查看所有可用动物cowsay -f daemon hello world ...

  4. Spark OFF_HEP变迁

    在文章的开头,安利一下我自己的github上的一个项目:AlluxioBlockManager,同时还有我的github上的博客:blog这个项目的作用是替代Spark2.0以前默认的TachyonB ...

  5. NIPS 2016:普及机器学习

    ​ 2016:普及机器学习" title="NIPS 2016:普及机器学习"> ​左起:微软研究员Robert Schapire,John Langford,Al ...

  6. 原创:Python爬虫实战之爬取代理ip

    编程的快乐只有在运行成功的那一刻才知道QAQ 目标网站:https://www.kuaidaili.com/free/inha/  #若有侵权请联系我 因为上面的代理都是http的所以没写这个判断 代 ...

  7. C++走向远洋——29(长方柱类)

    */ * Copyright (c) 2016,烟台大学计算机与控制工程学院 * All rights reserved. * 文件名:长方柱类.cpp * 作者:常轩 * 微信公众号:Worldhe ...

  8. async/await实现图片的串行、并行加载

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  9. 达拉草201771010105《面向对象程序设计(java)》第一周学习总结

    达拉草201771010105<面向对象程序设计(java)>第一周学习总结 第一部分:课程准备部分 填写课程学习 平台注册账号, 平台名称 注册账号 博客园:www.cnblogs.co ...

  10. python中excel数据分组处理

    1.场景描述 因文本相似性热度统计(python版)需求中要根据故障类型进行分组统计,需要对excel进行分组后再分词统计,简单记录下,有需要的朋友可以直接拿走,不客气! 2.解决方案 采用panda ...