ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测
ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测
STD: Sparse-to-Dense 3D Object Detector for Point Cloud
论文链接:https://arxiv.org/pdf/1907.10471.pdf
本文在LITTI数据集3D Object Detection三维目标检测性能排名第5。
摘要
提出了一种新的两级三维目标检测框架,称为稀疏到稠密三维目标检测框架(STD)。第一阶段是一个自下而上的提案生成网络,它使用原始点云作为输入,通过为每个点播种一个新的球形锚来生成准确的提案。与以往的工作相比,该方法具有较高的查全率和较少的计算量。然后,通过将提议特征的内部点特征从稀疏表达式转换为紧凑表示,利用PointsPool生成提议特征,从而节省了更多的计算时间。在第二阶段的盒内预测中,本文实现了一个并行交并(IoU)分支,以提高定位精度,从而进一步提高了性能。本文在KITTI数据集上进行了实验,并从三维物体和鸟瞰图(BEV)检测两个方面对本文的方法进行了评价。本文的方法在很大程度上优于其他技术,特别是在硬集上,推理速度超过10 FPS。
1. Introduction
本文在KITTI数据集上评估本文的模型[1]。实验表明,本文的模型在BEV和3D目标检测任务方面都优于其他状态下的模型,特别是对于困难的例子。本文的主要贡献是多方面的。
提出了一种基于点的球形锚定点云目标检测方案生成模型。它是通用的,以实现高召回率。
•提议的PointsPool层集成了基于点和体素的方法的优点,实现了高效的预测。 •新的3D IoU预测分支有助于分类性能和本地化之间的一致性,导致显著改善。在KITTI数据集上的实验结果表明,本框架处理了许多具有高遮挡和拥挤度的挑战性案例,并获得了最新的性能。此外,在设计中,在10 FPS的速度下可以获得良好的性能。
2. Related Work
l 三维语义分割在点云上处理语义分割有多种方法。
在[33]中,投影函数将激光雷达点转换为紫外线地图,然后在像素级通过二维语义分割[33,36,3]对其进行分类。在[6,5]中,基于多视图的功能生成分割掩码。这种方法融合了来自不同视图的信息。其他解决方案,如[28、27、18、12、17],从原始激光雷达数据中分割点云。它们直接在每个点上生成特征,同时保留原始的结构信息。最大池化方法收集全局特征。然后将其与本地特征连接起来进行处理。
l 三维目标检测
三维目标检测有三条不同的线。它们是多视图、体素和基于点的方法。
对于多视图方法,MV3D[4]将LiDAR点云投影到BEV,并训练区域建议网络(RPN)以生成积极的建议。它融合了BEV、图像视图和前视图的功能,以生成重新定义的三维边界框。AVOD[14]通过融合图像和BEV功能(如[20])改进了MV3D。与MV3D不同,MV3D只在增强阶段合并特性,它也在RPN阶段合并来自多个视图的特性以生成积极的建议。这些方法在检测行人、自行车等小目标时仍有局限性。它们不处理深度方向上有多个对象的情况。
有几种基于LiDAR数据库的体素网格三维目标检测框架。在[32]中,每个非空体素由该体素内的点用6个统计量编码。[16]中对每个体素网格使用二进制编码。在PIXOR[35]中,每个体素网格被编码为占用。所有这些方法都使用手工制作的表示。体素网[37]相反,堆叠许多VFE层来为每个体素生成机器学习的表示。与[37]相比,第二[34]使用稀疏卷积层[10]来解析紧凑表示。PointPillars[15]使用伪图像作为体素化后的表示。
F-PointNet[26]是第一种利用原始点云预测三维物体的方法。它使用来自二维目标检测作为候选框,并基于内部点回归预测。因此,性能很大程度上依赖于二维目标检测器。不同的是,PointRCNN[30]使用整个点云来生成,而不是二维图像。它直接使用提案中心点的分段效率进行分类位置信息。其他特征如大小和方向被忽略。相比之下,设计一般是利用点云强大的表示能力。
3. Framework
本文方法是一个两阶段的三维物体检测框架,利用了体素和基于点的方法的优点。为了产生精确的基于点的方案,设计了球形锚和一种新的策略分配标签锚。对于每个生成的方案, 部署一个新的PointsPool层,将基于点的特征从稀疏表达式转换为密集表示。采用box预测网络进行最终预测。框架如图1所示。
每个方案的动机,最直接的最终预测方法是基于内部点执行PointNet++[30,26]。尽管简单,但与传统的卷积或全连接(FC)层相比,数据集抽象(SA)等操作的计算代价更高。如表1所示,在100个方案中,PointNet++基线在推断期间需要41ms,而纯FC层需要16ms。它几乎比基线快2.5倍,性能下降仅0.4%。此外,与点网基线相比,具有FC层的模型只需额外6毫秒,性能就提高了1.6%。这是因为点网回归头使用较少的局部信息。
IoU估计分支在回顾工作[15,34,37,14,30]中,NMS被应用于box估计的结果以去除重复的预测。分类效率用于NMS期间的排名。文献[11,22,29]指出,盒子的分类效率与定位质量没有显著的相关性。同样,分类效率和盒子质量之间的弱相关性也会影响基于点的目标检测任务。考虑到用于自动驾驶的激光雷达通常以固定角度收集,并且部分覆盖物体,定位精度对可见部分与其全视图之间的相对位置极其敏感,而分类分支无法提供足够的信息。如表2所示,如果本文将每个预测框的oracle IoU值(而不是分类分数)提供给NMS进行重复删除,性能将提高约12.6%。
Loss Function
使用多任务丢失来训练本文的网络。本文的总损失由生成损耗Lprop和box预测损耗Lbox组成
4. Experiments
为了对测试集进行评估,本文在分割的train/val集上以4:1的比率训练模型。表3列出了本文方法的性能以及与以前方法的比较。本文的模型比其他方法在汽车和自行车类上有很大的优势,特别是在hard集上。与使用其他传感器作为附加信息的多视图方法相比,本文的方法只需输入原始点云就可以获得更高的AP。与Uber-ATG-MMF[19]相比,STD在汽车三维检测的moderate水平上优于Uber-ATG-MMF[19]。在hard集上也得到了7.65%的大幅度提高,表明了本文的方案生成模块和IoU分支的有效性。
注意,在行人级别上,STD仍然是仅有激光雷达的探测器中最好的。多传感器检测器工作得更好,因为行人身上几乎没有3D点,因此很难将其与其他小物体(如指示器电传孔)区分开来,如图3所示。在这些情况下,RGB的额外信息会有所帮助。与仅使用激光雷达的探测器、体素或点方法相比,我们的方法在所有三种类型上都最有效。具体来说,在车辆检测方面,与PointRCNN[30]、PointPillars[15]和SECOND[34]相比,STD的AP分别提高了1.87%、2.64%和3.97%。hard数据集的改善更为显著,分别提高了7.74%、7.76%和9.86%。我们在图4中给出了几个定性结果。
5. Conclusion
本文提出了一种新的两阶段三维目标检测框架,它同时利用了基于体素和基于点的方法。本文引入基于点的球形锚,并重新定义它们,以便在第一阶段准确地生成方案,而不会丢失定位信息。然后应用PointsPool层生成方案的紧凑表示,这有利于减少推理时间。第二阶段减少不正确的损失后处理,进一步提高性能。本文的模型可以很好地进行三维检测,特别是在hard 数据集上。
ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测的更多相关文章
- CVPR2020论文解读:3D Object Detection三维目标检测
CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...
- 三维目标检测论文阅读:Deep Continuous Fusion for Multi-Sensor 3D Object Detection
题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧 ...
- 论文笔记:目标检测算法(R-CNN,Fast R-CNN,Faster R-CNN,FPN,YOLOv1-v3)
R-CNN(Region-based CNN) motivation:之前的视觉任务大多数考虑使用SIFT和HOG特征,而近年来CNN和ImageNet的出现使得图像分类问题取得重大突破,那么这方面的 ...
- 3D目标检测(CVPR2020:Lidar)
3D目标检测(CVPR2020:Lidar) LiDAR-Based Online 3D Video Object Detection With Graph-Based Message Passing ...
- 带你读AI论文丨用于目标检测的高斯检测框与ProbIoU
摘要:本文解读了<Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection&g ...
- 3D点云点云分割、目标检测、分类
3D点云点云分割.目标检测.分类 原标题Deep Learning for 3D Point Clouds: A Survey 作者Yulan Guo, Hanyun Wang, Qingyong H ...
- CVPR2019:无人驾驶3D目标检测论文点评
CVPR2019:无人驾驶3D目标检测论文点评 重读CVPR2019的文章,现在对以下文章进行点评. Stereo R-CNN based 3D Object Detection for Autono ...
- Waymo object detect 2D解决方案论文拓展
FixMatch 半监督中的基础论文,自监督和模型一致性的代表作. Consistency regularization: 无监督学习的方式,数据\(A\)和经过数据增强的\(A\)计做\(A'\) ...
- 《Stereo R-CNN based 3D Object Detection for Autonomous Driving》论文解读
论文链接:https://arxiv.org/pdf/1902.09738v2.pdf 这两个月忙着做实验 博客都有些荒废了,写篇用于3D检测的论文解读吧,有理解错误的地方,烦请有心人指正). 博客原 ...
随机推荐
- ASP.NET Core 存储session取不到值
该项目是一个mvc项目,我使用session存储登录后的用户信息,然后发现登录信息存储到session正常,这个时候立马去获取也正常 但是如果我跳转到首页后,再去获取session信息,发现sessi ...
- nginx 完美解决tp3.2.3 404问题
最近我把Apache给换成nginx,当我把tp项目搬过去运行的时候发现404 错误 ,原来是因为nginx不支持 pathinfo 模式,需要自己配置 下面我配置 在server配置里面 locat ...
- 你可能不知道的CSS元素隐藏“失效”以其妙用
在CSS中,让元素隐藏(指屏幕范围内肉眼不可见)的方法很多,有的占据空间,有的不占据空间:有的可以响应点击,有的不能响应点击.后宫选秀--一个一个看. { display: none; /* 不占据空 ...
- hdu2846 字典树(带id的)
题意: 给你一些模式串,然后给你一些提问,每个提问是给你一个串,问你这个串在上 面的模式串中出现的次数. 思路: 一开始想到hash,但是因为用的是map,所以超时了,map的操 ...
- hdu1251 hash或者字典树
题意: 统计难题 Problem Description Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量 ...
- 一份释放root文件的脚本文件
#!/system/bin/sh MYDIR=$3 ARGS=$4 SU=$MYDIR/au SUPOLICY=$MYDIR/supolicy BUSYBOX=$MYDIR/busybox TOOLB ...
- Known Notation 39届亚洲赛牡丹江站K题
题意: 题意,哎!说道题意就蛋疼啊,比赛的时候就愣是把这个题目读成数字可以随意组合,比如123 可以拆成1 23 ,12 3 ,1 2 3,结果显然,水题当神题,各种想不出来,然后就显然的 ...
- Linux中环境变量的设置
目录 环境变量 Shell定义的环境变量 查看环境变量 Linux下环境变量的设置 环境变量 在Windows 系统下,很多软件安装都需要配置环境变量,比如 安装 jdk ,如果不配置环境变量,在非软 ...
- Python爬虫之-动态网页数据抓取
什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意 ...
- layui中的视频上传(PHP )
1.html中: <div class="layui-form-item"> <label class="layui-form-label"& ...