ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测

STD: Sparse-to-Dense 3D Object Detector for Point Cloud

论文链接:https://arxiv.org/pdf/1907.10471.pdf

本文在LITTI数据集3D Object Detection三维目标检测性能排名第5。

摘要

提出了一种新的两级三维目标检测框架,称为稀疏到稠密三维目标检测框架(STD)。第一阶段是一个自下而上的提案生成网络,它使用原始点云作为输入,通过为每个点播种一个新的球形锚来生成准确的提案。与以往的工作相比,该方法具有较高的查全率和较少的计算量。然后,通过将提议特征的内部点特征从稀疏表达式转换为紧凑表示,利用PointsPool生成提议特征,从而节省了更多的计算时间。在第二阶段的盒内预测中,本文实现了一个并行交并(IoU)分支,以提高定位精度,从而进一步提高了性能。本文在KITTI数据集上进行了实验,并从三维物体和鸟瞰图(BEV)检测两个方面对本文的方法进行了评价。本文的方法在很大程度上优于其他技术,特别是在硬集上,推理速度超过10 FPS。

1.       Introduction

本文在KITTI数据集上评估本文的模型[1]。实验表明,本文的模型在BEV和3D目标检测任务方面都优于其他状态下的模型,特别是对于困难的例子。本文的主要贡献是多方面的。

提出了一种基于点的球形锚定点云目标检测方案生成模型。它是通用的,以实现高召回率。

•提议的PointsPool层集成了基于点和体素的方法的优点,实现了高效的预测。              •新的3D IoU预测分支有助于分类性能和本地化之间的一致性,导致显著改善。在KITTI数据集上的实验结果表明,本框架处理了许多具有高遮挡和拥挤度的挑战性案例,并获得了最新的性能。此外,在设计中,在10 FPS的速度下可以获得良好的性能。

2.       Related Work

l  三维语义分割在点云上处理语义分割有多种方法。

在[33]中,投影函数将激光雷达点转换为紫外线地图,然后在像素级通过二维语义分割[33,36,3]对其进行分类。在[6,5]中,基于多视图的功能生成分割掩码。这种方法融合了来自不同视图的信息。其他解决方案,如[28、27、18、12、17],从原始激光雷达数据中分割点云。它们直接在每个点上生成特征,同时保留原始的结构信息。最大池化方法收集全局特征。然后将其与本地特征连接起来进行处理。

l  三维目标检测

三维目标检测有三条不同的线。它们是多视图、体素和基于点的方法。

对于多视图方法,MV3D[4]将LiDAR点云投影到BEV,并训练区域建议网络(RPN)以生成积极的建议。它融合了BEV、图像视图和前视图的功能,以生成重新定义的三维边界框。AVOD[14]通过融合图像和BEV功能(如[20])改进了MV3D。与MV3D不同,MV3D只在增强阶段合并特性,它也在RPN阶段合并来自多个视图的特性以生成积极的建议。这些方法在检测行人、自行车等小目标时仍有局限性。它们不处理深度方向上有多个对象的情况。

有几种基于LiDAR数据库的体素网格三维目标检测框架。在[32]中,每个非空体素由该体素内的点用6个统计量编码。[16]中对每个体素网格使用二进制编码。在PIXOR[35]中,每个体素网格被编码为占用。所有这些方法都使用手工制作的表示。体素网[37]相反,堆叠许多VFE层来为每个体素生成机器学习的表示。与[37]相比,第二[34]使用稀疏卷积层[10]来解析紧凑表示。PointPillars[15]使用伪图像作为体素化后的表示。

F-PointNet[26]是第一种利用原始点云预测三维物体的方法。它使用来自二维目标检测作为候选框,并基于内部点回归预测。因此,性能很大程度上依赖于二维目标检测器。不同的是,PointRCNN[30]使用整个点云来生成,而不是二维图像。它直接使用提案中心点的分段效率进行分类位置信息。其他特征如大小和方向被忽略。相比之下,设计一般是利用点云强大的表示能力。

3.       Framework

本文方法是一个两阶段的三维物体检测框架,利用了体素和基于点的方法的优点。为了产生精确的基于点的方案,设计了球形锚和一种新的策略分配标签锚。对于每个生成的方案, 部署一个新的PointsPool层,将基于点的特征从稀疏表达式转换为密集表示。采用box预测网络进行最终预测。框架如图1所示。

每个方案的动机,最直接的最终预测方法是基于内部点执行PointNet++[30,26]。尽管简单,但与传统的卷积或全连接(FC)层相比,数据集抽象(SA)等操作的计算代价更高。如表1所示,在100个方案中,PointNet++基线在推断期间需要41ms,而纯FC层需要16ms。它几乎比基线快2.5倍,性能下降仅0.4%。此外,与点网基线相比,具有FC层的模型只需额外6毫秒,性能就提高了1.6%。这是因为点网回归头使用较少的局部信息。

IoU估计分支在回顾工作[15,34,37,14,30]中,NMS被应用于box估计的结果以去除重复的预测。分类效率用于NMS期间的排名。文献[11,22,29]指出,盒子的分类效率与定位质量没有显著的相关性。同样,分类效率和盒子质量之间的弱相关性也会影响基于点的目标检测任务。考虑到用于自动驾驶的激光雷达通常以固定角度收集,并且部分覆盖物体,定位精度对可见部分与其全视图之间的相对位置极其敏感,而分类分支无法提供足够的信息。如表2所示,如果本文将每个预测框的oracle IoU值(而不是分类分数)提供给NMS进行重复删除,性能将提高约12.6%。

Loss Function

使用多任务丢失来训练本文的网络。本文的总损失由生成损耗Lprop和box预测损耗Lbox组成

4.       Experiments

为了对测试集进行评估,本文在分割的train/val集上以4:1的比率训练模型。表3列出了本文方法的性能以及与以前方法的比较。本文的模型比其他方法在汽车和自行车类上有很大的优势,特别是在hard集上。与使用其他传感器作为附加信息的多视图方法相比,本文的方法只需输入原始点云就可以获得更高的AP。与Uber-ATG-MMF[19]相比,STD在汽车三维检测的moderate水平上优于Uber-ATG-MMF[19]。在hard集上也得到了7.65%的大幅度提高,表明了本文的方案生成模块和IoU分支的有效性。

注意,在行人级别上,STD仍然是仅有激光雷达的探测器中最好的。多传感器检测器工作得更好,因为行人身上几乎没有3D点,因此很难将其与其他小物体(如指示器电传孔)区分开来,如图3所示。在这些情况下,RGB的额外信息会有所帮助。与仅使用激光雷达的探测器、体素或点方法相比,我们的方法在所有三种类型上都最有效。具体来说,在车辆检测方面,与PointRCNN[30]、PointPillars[15]和SECOND[34]相比,STD的AP分别提高了1.87%、2.64%和3.97%。hard数据集的改善更为显著,分别提高了7.74%、7.76%和9.86%。我们在图4中给出了几个定性结果。

5.       Conclusion

本文提出了一种新的两阶段三维目标检测框架,它同时利用了基于体素和基于点的方法。本文引入基于点的球形锚,并重新定义它们,以便在第一阶段准确地生成方案,而不会丢失定位信息。然后应用PointsPool层生成方案的紧凑表示,这有利于减少推理时间。第二阶段减少不正确的损失后处理,进一步提高性能。本文的模型可以很好地进行三维检测,特别是在hard 数据集上。

ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测的更多相关文章

  1. CVPR2020论文解读:3D Object Detection三维目标检测

    CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...

  2. 三维目标检测论文阅读:Deep Continuous Fusion for Multi-Sensor 3D Object Detection

    题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧 ...

  3. 论文笔记:目标检测算法(R-CNN,Fast R-CNN,Faster R-CNN,FPN,YOLOv1-v3)

    R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的 ...

  4. 3D目标检测(CVPR2020:Lidar)

    3D目标检测(CVPR2020:Lidar) LiDAR-Based Online 3D Video Object Detection With Graph-Based Message Passing ...

  5. 带你读AI论文丨用于目标检测的高斯检测框与ProbIoU

    摘要:本文解读了<Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection&g ...

  6. 3D点云点云分割、目标检测、分类

    3D点云点云分割.目标检测.分类 原标题Deep Learning for 3D Point Clouds: A Survey 作者Yulan Guo, Hanyun Wang, Qingyong H ...

  7. CVPR2019:无人驾驶3D目标检测论文点评

    CVPR2019:无人驾驶3D目标检测论文点评 重读CVPR2019的文章,现在对以下文章进行点评. Stereo R-CNN based 3D Object Detection for Autono ...

  8. Waymo object detect 2D解决方案论文拓展

    FixMatch 半监督中的基础论文,自监督和模型一致性的代表作. Consistency regularization: 无监督学习的方式,数据\(A\)和经过数据增强的\(A\)计做\(A'\) ...

  9. 《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读

    论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验 博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...

随机推荐

  1. Shodan的使用

    目录 Shodan Shodan工作原理 Shodan的使用 使用搜索过滤 Kali中安装 Shodan Kali中Shodan的使用 Shodan Shodan 是一个搜索引擎,但它与 Google ...

  2. Apache Tomcat examples directory vulnerabilities(Apache Tomcat样例目录session操纵漏洞)复现

    目录 Session操控漏洞 示例: Session操控漏洞 在Apache tomcat中,有一个默认的example示例目录,该example目录中存着众多的样例,其中/examples/serv ...

  3. Win64 驱动内核编程-10.突破WIN7的PatchGuard

    突破WIN7的PatchGuard WIN64 有两个内核保护机制,KPP 和 DSE.KPP 阻止我们 PATCH 内核,DSE 拦截我们加载驱动.当然 KPP 和 DSE 并不是不可战胜的,WIN ...

  4. [CTF]猪圈密码

    [CTF]猪圈密码 -------------------- 百度百科 本词条由"科普中国"百科科学词条编写与应用工作项目 审核 . https://baike.baidu.com ...

  5. 【odoo】[经验分享]数据迁移注意事项

    [odoo14]经典好书学习没有烂尾,主体已完成,可移步了解.https://www.cnblogs.com/xushuotec/p/14428210.html 背景 近期,有朋友打算上odoo系统. ...

  6. 比物理线程都好用的C++20的协程,你会用吗?

    摘要:事件驱动(event driven)是一种常见的代码模型,其通常会有一个主循环(mainloop)不断的从队列中接收事件,然后分发给相应的函数/模块处理.常见使用事件驱动模型的软件包括图形用户界 ...

  7. OO第三单元作业(JML)总结

    OO第三单元作业(JML)总结 目录 OO第三单元作业(JML)总结 JML语言知识梳理 使用jml的目的 jml注释结构 jml表达式 方法规格 类型规格 SMT Solver 部署JMLUnitN ...

  8. CSS中margin负值巧布局

    margin负值实现细边框 我们先准备五个div盒子,并设置好浮动和2px的实线黑色边框,看看效果 中间的边框线挨在了一起致使边框变粗成了4px,这时使用margin负值就可以解决这个问题 <s ...

  9. pytorch实现LeNet5分类CIFAR10

    关于LeNet-5 LeNet5的Pytorch实现在网络上已经有很多了,这里记录一下自己的实现方法. LeNet-5出自于Gradient-Based Learning Applied to Doc ...

  10. Aliyun SSL 证书签发&安装

    目录 HTTPS SSL证书 签发 和 应用 证书购买 证书申请 证书安装 参考文档 HTTPS SSL证书 签发 和 应用 - SSL证书服务(Alibaba Cloud SSL Certifica ...