CVPR2019：无人驾驶3D目标检测论文点评

重读CVPR2019的文章，现在对以下文章进行点评。

Stereo R-CNN based 3D Object Detection for Autonomous Driving

1. introduction

本文提出了完全自动驾驶3D目标检测方法，包括3D图像检测疏密度，语义和几何信息。这个方法命名为Stereo R-CNN，将Faster R-CNN推广到3D图像输入信息，检测和关联左右两部分图像。通过在立体区域建议网络stereo Region Proposal Network (RPN)增加分支，预测稀疏点，透视点和目标维数，以便将2D左右boxes通过准确度2D透视投影来计算3D-BOX目标。然后，通过左右ROI线性成像来复原3D bounding-box。本方法不要求详细输入深度信息和3D位置，而且超过所以目前的3D目标检测方法。实验结果表示，这种方法在KITTI数据集上有大约30%AP，无论使3D目标检测，还是3D局部任务。本文实现开源代码链接在：https://github.com/HKUST-Aerial-Robotics/Stereo-RCNN

2018年在3D检测方面的文章层出不穷，也是各个公司无人驾驶或者机器人学部门关注的重点，包含了点云，点云图像融合，以及单目3D检测，但是在双目视觉方面的贡献还是比较少，自从3DOP之后。

总体来说，图像的检测距离，图像的density以及context信息，在3D检测中是不可或缺的一部分，因此作者在这篇文章中挖掘了双目视觉做3D检测的的潜力。

2. network structure

整个网络结构分为以下的几个部分。

1). RPN部分，作者将左右目的图像通过stereoRPN产生相应的proposal。具体来说stereo RPN是在FPN的基础上，将每个FPN的scale上的feature map的进行concat的结构。

2）Stereo Regression，在RPN之后，通过ROIAlign的操作，得到each FPN scale下的左右ROI特征，然后concat相应的特征，经过fc层得到object class，stereo bounding boxes dimension，还有viewpoint angle的值。关于viewpoint，根据figure3，嘉定目标的朝向是θ，车中心和camera中心的方位角是β，那么viewpoint的角度是α=θ+β，为了避免角度的歧义性，回归量还是[sinα，cosα]。

3). keypoint的检测。这里采用的是类似于mask rcnn的结构进行关键点的预测。文章定义了4个3D semantic keypoint，即车辆底部的3D corner point，同时将这4个点投影到图像，得到4个perspective keypoint，这4个点在3D bbox regression起到一定的作用，在下一部分再介绍。

在keypoint检测任务中，作者利用RoiAlign得到的14*14feature map，经过conv，deconv最后得到6 * 28 * 28的feature map，注意到只有keypoint的u坐标会提供2D Box以外的信息，因此，处于减少计算量的目的，作者aggregate每一列的feature，得到6 * 28的output，其中，前4个channel代表4个keypoint被投影到相应的u坐标的概率，后面两个channel代表是left or right boundary上的keypoint的概率。

3. 3D Box
Estimation

通过网络回归得到的2D box的dimension，viewpoint，还有keypoint，可以通过一定的方式得到3D box的位置。定义3D box的状态x = [x, y, z, θ]。

Figure 5，给出了一些稀疏的约束。包含了特征点的映射过程。这里也体现了keypoint的用处。

上述公式即为约束方程，因此可以通过高斯牛顿的方法直接求解。

4. Dense 3D Box
Alignment

这里就回到shenshaojie老师比较熟悉的BA的过程了，由于part 3仅仅只是一个object level的深度，这里文章利用最小化左右视图的RGB的值，得到一个更加refine的过程。定义如下的误差函数

这里

分别表示图像左右两部分部分3通道RGB向量；

表示与3D-BOX中心像素值i的灰度差值；b表示线段长度。

而这一块的求解利用G20或者ceres也可以完成。整个alignment过程其实相对于深度的直接预测是更加robust的，因为这种预测方法，避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的问题。

5. experiment

在实验这块达到了双目视觉的state of art，同时对于各个module也做了很充足的实验。

6. Insight

最后谈谈文章一些insights，首先，整个文章将传统的detection的任务，结合了geometry constraint优化的方式，做到了3D位置的估计，想法其实在不少文章sfm-learner之类的文章已经有体现过了，不过用在3Ddetection上面还是比较新颖，避免了做双目匹配估计深度的过程。也属于slam跟深度学习结合的一篇文章，感兴趣的朋友可以继续看看arxiv.org/abs/1802.0552等相关文章

谈几点不足吧，首先耗时过程0.28s的inference time，不过可能作者的重点也不在这个方面，特征的利用上可以更加有效率，在实现上。其次，能不能采用deep3dbox的方式预测dimension，然后添加入优化项呢...总体来说，是一篇不错的值得一读的文章！

CVPR2019：无人驾驶3D目标检测论文点评的更多相关文章

CVPR2019目标检测论文看点：并域上的广义交
CVPR2019目标检测论文看点:并域上的广义交 Generalized Intersection over Union Generalized Intersection over Union: A ...
三维目标检测论文阅读：Deep Continuous Fusion for Multi-Sensor 3D Object Detection
题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧 ...
CVPR2020论文介绍： 3D 目标检测高效算法
CVPR2020论文介绍: 3D 目标检测高效算法 CVPR 2020: Structure Aware Single-Stage 3D Object Detection from Point Clo ...
AAAI2019 | 基于区域分解集成的目标检测论文解读
Object Detection based on Region Decomposition and Assembly AAAI2019 | 基于区域分解集成的目标检测论文解读作者 | 文永亮学 ...
3D目标检测（CVPR2020：Lidar）
3D目标检测(CVPR2020:Lidar) LiDAR-Based Online 3D Video Object Detection With Graph-Based Message Passing ...
CVPR2020|3D-VID:基于LiDar Video信息的3D目标检测框架
作者:蒋天园 Date:2020-04-18 来源:3D-VID:基于LiDar Video信息的3D目标检测框架|CVPR2020 Brief paper地址:https://arxiv.org/p ...
目标检测论文解读5——YOLO v1
背景之前热门的目标检测方法都是two stage的,即分为region proposal和classification两个阶段,本文是对one stage方法的初次探索. 方法首先看一下模型的网络 ...
CenterNet算法笔记（目标检测论文）
论文名称:CenterNet: Keypoint Triplets for Object Detectiontection 论文链接:https://arxiv.org/abs/1904.08189 ...
目标检测论文解读1——Rich feature hierarchies for accurate object detection and semantic segmentation
背景在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红 ...

随机推荐

1-3 Postman 注册账号与登录
1.为什么要注册postman账号注册postman账号是免费的.当注册并登陆一个postman账号后,用户可以获得如下权限. (1)同步和备份历史,集合,环境,和预置头. (2)可以轻松的处理来自 ...
【beego】beego的路由设置
beego 存在三种方式的路由:固定路由.正则路由.自动路由基础路由从 beego 1.2 版本开始支持了基本的 RESTful 函数式路由,应用中的大多数路由都会定义在 routers/rout ...
DonkeyID---php扩展-64位自增ID生成器
##原理参考Twitter-Snowflake 算法,扩展了其中的细节.具体组成如下图: 如图所示,64bits 咱们分成了4个部分. 毫秒级的时间戳,有42个bit.能够使用139年,从1970年 ...
Windows PE变形练手1-用PE自己的机器码修改自己的逻辑
PE变形练手1-用PE自己的机器码修改自己的逻辑就是找一个PE文件,用自己的部分代码部分覆盖或者而修改自己另一个代码部分的补丁姿势(现实中使用很少,极少数破解可以用到.这次例子目的是了解PE). 第 ...
(Py练习)查询子串出现次数
if __name__ == '__main__': str1 = input('请输入一个字符串:\n') str2 = input('请输入一个子串:\n') ncount = str1.coun ...
Arduino+DS18b20+OLED Display
DS18b20获取到温度数值保存到变量中,然后和天气图标还有滚动字幕一起发送到OLED 屏幕上显示需要用到的库均可在Arduino库管理器下载. 电路图: 图中屏幕接线已在代码中写出,温度传感器da ...
Java前后端分离的认识
1.原由在网上查了关于前后端分离的资料,有所粗浅认识.记录下来,方便以后使用.以下均是个人看法,仅做参考.如有错误请指教,共同进步. 2.为什么前后端分离? ①.一个后台,可以让多种前台系统使用.后 ...
多线程-5.JMM之happens-before原则
a happens-before b 翻译为a操作对b操作是可见的.可见即是指共享变量的更改能获知. 特性:传递性原则:volatile定义的变量写操作 happens-before 读操作同一 ...
Linux 内核调度器源码分析 - 初始化
导语上篇系列文混部之殇-论云原生资源隔离技术之CPU隔离(一) 介绍了云原生混部场景中CPU资源隔离核心技术:内核调度器,本系列文章<Linux内核调度器源码分析>将从源码的角度剖析内 ...
js取随机数看这里
取0~10的随机数 Math.Random()*10 ; 取1~10的随机数 Math.Random()*9 + 1 ; 取0~10的随机整数(十一个数字) Math.floor( Math.Rand ...

CVPR2019：无人驾驶3D目标检测论文点评

CVPR2019：无人驾驶3D目标检测论文点评的更多相关文章

随机推荐

热门专题