ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测
ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测
STD: Sparse-to-Dense 3D Object Detector for Point Cloud

论文链接:https://arxiv.org/pdf/1907.10471.pdf
本文在LITTI数据集3D Object Detection三维目标检测性能排名第5。

摘要
提出了一种新的两级三维目标检测框架,称为稀疏到稠密三维目标检测框架(STD)。第一阶段是一个自下而上的提案生成网络,它使用原始点云作为输入,通过为每个点播种一个新的球形锚来生成准确的提案。与以往的工作相比,该方法具有较高的查全率和较少的计算量。然后,通过将提议特征的内部点特征从稀疏表达式转换为紧凑表示,利用PointsPool生成提议特征,从而节省了更多的计算时间。在第二阶段的盒内预测中,本文实现了一个并行交并(IoU)分支,以提高定位精度,从而进一步提高了性能。本文在KITTI数据集上进行了实验,并从三维物体和鸟瞰图(BEV)检测两个方面对本文的方法进行了评价。本文的方法在很大程度上优于其他技术,特别是在硬集上,推理速度超过10 FPS。
1. Introduction
本文在KITTI数据集上评估本文的模型[1]。实验表明,本文的模型在BEV和3D目标检测任务方面都优于其他状态下的模型,特别是对于困难的例子。本文的主要贡献是多方面的。
提出了一种基于点的球形锚定点云目标检测方案生成模型。它是通用的,以实现高召回率。
•提议的PointsPool层集成了基于点和体素的方法的优点,实现了高效的预测。 •新的3D IoU预测分支有助于分类性能和本地化之间的一致性,导致显著改善。在KITTI数据集上的实验结果表明,本框架处理了许多具有高遮挡和拥挤度的挑战性案例,并获得了最新的性能。此外,在设计中,在10 FPS的速度下可以获得良好的性能。
2. Related Work
l 三维语义分割在点云上处理语义分割有多种方法。
在[33]中,投影函数将激光雷达点转换为紫外线地图,然后在像素级通过二维语义分割[33,36,3]对其进行分类。在[6,5]中,基于多视图的功能生成分割掩码。这种方法融合了来自不同视图的信息。其他解决方案,如[28、27、18、12、17],从原始激光雷达数据中分割点云。它们直接在每个点上生成特征,同时保留原始的结构信息。最大池化方法收集全局特征。然后将其与本地特征连接起来进行处理。
l 三维目标检测
三维目标检测有三条不同的线。它们是多视图、体素和基于点的方法。
对于多视图方法,MV3D[4]将LiDAR点云投影到BEV,并训练区域建议网络(RPN)以生成积极的建议。它融合了BEV、图像视图和前视图的功能,以生成重新定义的三维边界框。AVOD[14]通过融合图像和BEV功能(如[20])改进了MV3D。与MV3D不同,MV3D只在增强阶段合并特性,它也在RPN阶段合并来自多个视图的特性以生成积极的建议。这些方法在检测行人、自行车等小目标时仍有局限性。它们不处理深度方向上有多个对象的情况。
有几种基于LiDAR数据库的体素网格三维目标检测框架。在[32]中,每个非空体素由该体素内的点用6个统计量编码。[16]中对每个体素网格使用二进制编码。在PIXOR[35]中,每个体素网格被编码为占用。所有这些方法都使用手工制作的表示。体素网[37]相反,堆叠许多VFE层来为每个体素生成机器学习的表示。与[37]相比,第二[34]使用稀疏卷积层[10]来解析紧凑表示。PointPillars[15]使用伪图像作为体素化后的表示。
F-PointNet[26]是第一种利用原始点云预测三维物体的方法。它使用来自二维目标检测作为候选框,并基于内部点回归预测。因此,性能很大程度上依赖于二维目标检测器。不同的是,PointRCNN[30]使用整个点云来生成,而不是二维图像。它直接使用提案中心点的分段效率进行分类位置信息。其他特征如大小和方向被忽略。相比之下,设计一般是利用点云强大的表示能力。
3. Framework
本文方法是一个两阶段的三维物体检测框架,利用了体素和基于点的方法的优点。为了产生精确的基于点的方案,设计了球形锚和一种新的策略分配标签锚。对于每个生成的方案, 部署一个新的PointsPool层,将基于点的特征从稀疏表达式转换为密集表示。采用box预测网络进行最终预测。框架如图1所示。

每个方案的动机,最直接的最终预测方法是基于内部点执行PointNet++[30,26]。尽管简单,但与传统的卷积或全连接(FC)层相比,数据集抽象(SA)等操作的计算代价更高。如表1所示,在100个方案中,PointNet++基线在推断期间需要41ms,而纯FC层需要16ms。它几乎比基线快2.5倍,性能下降仅0.4%。此外,与点网基线相比,具有FC层的模型只需额外6毫秒,性能就提高了1.6%。这是因为点网回归头使用较少的局部信息。

IoU估计分支在回顾工作[15,34,37,14,30]中,NMS被应用于box估计的结果以去除重复的预测。分类效率用于NMS期间的排名。文献[11,22,29]指出,盒子的分类效率与定位质量没有显著的相关性。同样,分类效率和盒子质量之间的弱相关性也会影响基于点的目标检测任务。考虑到用于自动驾驶的激光雷达通常以固定角度收集,并且部分覆盖物体,定位精度对可见部分与其全视图之间的相对位置极其敏感,而分类分支无法提供足够的信息。如表2所示,如果本文将每个预测框的oracle IoU值(而不是分类分数)提供给NMS进行重复删除,性能将提高约12.6%。

Loss Function
使用多任务丢失来训练本文的网络。本文的总损失由生成损耗Lprop和box预测损耗Lbox组成






4. Experiments
为了对测试集进行评估,本文在分割的train/val集上以4:1的比率训练模型。表3列出了本文方法的性能以及与以前方法的比较。本文的模型比其他方法在汽车和自行车类上有很大的优势,特别是在hard集上。与使用其他传感器作为附加信息的多视图方法相比,本文的方法只需输入原始点云就可以获得更高的AP。与Uber-ATG-MMF[19]相比,STD在汽车三维检测的moderate水平上优于Uber-ATG-MMF[19]。在hard集上也得到了7.65%的大幅度提高,表明了本文的方案生成模块和IoU分支的有效性。

注意,在行人级别上,STD仍然是仅有激光雷达的探测器中最好的。多传感器检测器工作得更好,因为行人身上几乎没有3D点,因此很难将其与其他小物体(如指示器电传孔)区分开来,如图3所示。在这些情况下,RGB的额外信息会有所帮助。与仅使用激光雷达的探测器、体素或点方法相比,我们的方法在所有三种类型上都最有效。具体来说,在车辆检测方面,与PointRCNN[30]、PointPillars[15]和SECOND[34]相比,STD的AP分别提高了1.87%、2.64%和3.97%。hard数据集的改善更为显著,分别提高了7.74%、7.76%和9.86%。我们在图4中给出了几个定性结果。


5. Conclusion
本文提出了一种新的两阶段三维目标检测框架,它同时利用了基于体素和基于点的方法。本文引入基于点的球形锚,并重新定义它们,以便在第一阶段准确地生成方案,而不会丢失定位信息。然后应用PointsPool层生成方案的紧凑表示,这有利于减少推理时间。第二阶段减少不正确的损失后处理,进一步提高性能。本文的模型可以很好地进行三维检测,特别是在hard 数据集上。
ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测的更多相关文章
- CVPR2020论文解读:3D Object Detection三维目标检测
CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...
- 三维目标检测论文阅读:Deep Continuous Fusion for Multi-Sensor 3D Object Detection
题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧 ...
- 论文笔记:目标检测算法(R-CNN,Fast R-CNN,Faster R-CNN,FPN,YOLOv1-v3)
R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的 ...
- 3D目标检测(CVPR2020:Lidar)
3D目标检测(CVPR2020:Lidar) LiDAR-Based Online 3D Video Object Detection With Graph-Based Message Passing ...
- 带你读AI论文丨用于目标检测的高斯检测框与ProbIoU
摘要:本文解读了<Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection&g ...
- 3D点云点云分割、目标检测、分类
3D点云点云分割.目标检测.分类 原标题Deep Learning for 3D Point Clouds: A Survey 作者Yulan Guo, Hanyun Wang, Qingyong H ...
- CVPR2019:无人驾驶3D目标检测论文点评
CVPR2019:无人驾驶3D目标检测论文点评 重读CVPR2019的文章,现在对以下文章进行点评. Stereo R-CNN based 3D Object Detection for Autono ...
- Waymo object detect 2D解决方案论文拓展
FixMatch 半监督中的基础论文,自监督和模型一致性的代表作. Consistency regularization: 无监督学习的方式,数据\(A\)和经过数据增强的\(A\)计做\(A'\) ...
- 《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读
论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验 博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...
随机推荐
- Sublime Text 3 Build 3176 License
先在hosts文件里加入两行: 127.0.0.1 www.sublimetext.com 127.0.0.1 license.sublimehq.com 目的是防止Sublime Text更新和检测 ...
- hdu4126(MST + 树形dp
题意: 这个题目和hdu4756差不多,是给你一个图,然后是q次改变边的权值,权值只增不减,最后问你每次改变之后的最小树的平均值是多少. 思路:(prim+树形dp) 先跑一边 ...
- 编译Android内核 For nexus 5 以及绕过Android的反调试
本文博客链接:http://blog.csdn.net/qq1084283172/article/details/54880488 前面的博客中已经记录了Nexus 5手机的Android 4.4.4 ...
- DVWA之Insecure Captcha
Insecure CAPTCHA Insecure CAPTCHA,意思是不安全的验证码,CAPTCHA是Completely Automated Public Turing Test to Tell ...
- MongonDb在thinkphp中常用的功能整理
1.以某字段开头的数据查询条件 $title = input('param.title'); $where['title'] = new \MongoDB\BSON\Regex("^{$ti ...
- 【小技巧】Eclipse 中创建Maven项目后没有WEB-INF文件夹以及web.xml文件
懒得截图了,一张图配下面步骤搞定. 1.右键项目,选择propertities后选择图中①(被遮住了): 2.先不②勾选去掉,点击Apply:然后在把②处勾选上.此时④位置会出现东东,点击蓝色超链接. ...
- Java前后端分离的认识
1.原由 在网上查了关于前后端分离的资料,有所粗浅认识.记录下来,方便以后使用.以下均是个人看法,仅做参考.如有错误请指教,共同进步. 2.为什么前后端分离? ①.一个后台,可以让多种前台系统使用.后 ...
- Mybatis学习之自定义持久层框架(七) 自定义持久层框架优化
前言 接上文,这里只是出于强迫症,凭借着半年前的笔记来把之前没写完的文章写完,这里是最后一篇了. 前面自定义的持久层框架存在的问题 Dao层若使用实现类,会存在代码重复,整个操作的过程模版重复(加载配 ...
- Codeforces Round #712 (Div. 2)
A. Déjà Vu 题意:就是问能否加上字母a,使得字符串不中心对称 思路:只有一种情况不能加入,就是全部是a,剩下的都可以满足,找a的位置就找哪个字母不是a,然后让它的对称位置是新加的这个a 代码 ...
- 使用Qt实现一个必应壁纸客户端
概要 必应的每日壁纸很好看,但是看不到一周以前的壁纸图片,日前使用python开发了必应壁纸收集站,可惜这样的收集站只能在线浏览,我在想要是有一款软件能够下载每日必应壁纸,并应用到windows的桌面 ...