视觉SLAM中的深度估计问题

一、研究背景

视觉SLAM需要获取世界坐标系中点的深度。

世界坐标系到像素坐标系的转换为（深度即Z）：

深度的获取一共分两种方式：

a）主动式

　　RGB-D相机按照原理又分为结构光测距、ToF相机

　　　　　　　　　　　　　　ToF相机原理

b）被动

被动式无法精确得到点的深度值，因此存在深度的估计问题，按照主流相机的种类可以分为双目相机估计以及单目相机估计。

接下来详细介绍双目系统以及单目SLAM系统的深度估计问题

二、双目系统

双目相机模型如下图所示：

（图源《视觉SLAM十四讲》）

要计算深度z，需要已知世界坐标系中一点在左相机与右相机中对应的像素坐标UL与UR，即视差d。

获取d关键在于双目匹配，即左相机与右相机中的像素坐标对应的世界坐标系中的同一点。

举例：

ORB-SLAM2基于特征点获取视差：FAST特征点+BREIF算子。

块匹配算法(对图像灰度值的操作)
- 　SAD（Sum of Absolute Difference）
- 　SSD（Sum of Squared Distance）
- NCC（Normalized Correlation）

得到匹配到的像素必须满足通过对极约束：

三、单目相机

针孔相机模型为：

相机坐标系下为（xC，yC，zC），像素坐标系为（u，v），归一化坐标系为（u0，v0）

3.1 三角化估计深度

通过两处观察同一个夹角，从而确定该点的距离

在通过对极几何求得R,t后，R,t已知

通过优化方法可求得上式中右边的最小二乘解，三角化的矛盾：平移增大，测量的精度会变高，但是可能会导致匹配失效。

ORB-SLAM单目中的三角化代码如下，可作参考：

void Initializer::Triangulate(const cv::KeyPoint &kp1, const cv::KeyPoint &kp2, const cv::Mat &P1, const cv::Mat &P2, cv::Mat &x3D)

{

cv::Mat A(,,CV_32F);

 A.row() = kp1.pt.x*P1.row()-P1.row();

A.row() = kp1.pt.y*P1.row()-P1.row();

A.row() = kp2.pt.x*P2.row()-P2.row();

A.row() = kp2.pt.y*P2.row()-P2.row();

 cv::Mat u,w,vt;

cv::SVD::compute(A,w,u,vt,cv::SVD::MODIFY_A| cv::SVD::FULL_UV);

x3D = vt.row().t();

x3D = x3D.rowRange(,)/x3D.at<float>();

}

3.2 深度滤波器

本质上为卡尔曼滤波估计深度

假设深度服从某种分布，最后深度的方差不断减少并收敛

以SVO为例：

SVO估计深度流程如下：

SVO中点服从高斯均匀分布：

点深度满足分布：

3.3 与监督学习结合

[]Tateno, K., Tombari, F., Laina, I., & Navab, N. (, July). CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (Vol. ).

[] Eigen D, Fergus R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2650-2658.

3.4 与非监督学习结合

总结一下思想：

矩阵T21的估计值，深度估计网络根据单目图像，输出深度的估计值。该值再结合左右视图的变换矩阵TLR，以及相机的内参K，可以从左图重构出右图，还可以把左图的特征映射到右图。重构图和特征与真值的差异构成了损失函数，利用反向传播算法可以不断优化网络。

Zhan, H., Garg, R., Weerasekera, C. S., Li, K., Agarwal, H., & Reid, I. (, March). Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. -).

3.5 与半监督学习结合

监督学习部分 ground-truth depth由激光雷达提供，无监督学习部分由双目相机的图像训练。损失函数的构成：预测深度与groud-truth的差，左图与右图+左深度图重构的左图的光度误差，右图与左图重构的光度误差,泛化损失:对深度和灰度求梯度。

Kuznietsov, Y., Stückler, J., & Leibe, B. (, July). Semi-supervised deep learning for monocular depth map prediction. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (pp. -).

四、总结

视觉SLAM中的深度估计问题的更多相关文章

视觉SLAM中相机详解
视觉SLAM中,通常是指使用相机来解决定位和建图问题. SLAM中使用的相机往往更加简单,不携带昂贵的镜头,以一定的速率拍摄周围的环境,形成一个连续的视频流. 相机分类: 单目相机:只是用一个摄像头进 ...
视觉SLAM中的数学基础第三篇李群与李代数
视觉SLAM中的数学基础第三篇李群与李代数前言在SLAM中,除了表达3D旋转与位移之外,我们还要对它们进行估计,因为SLAM整个过程就是在不断地估计机器人的位姿与地图.为了做这件事,需要对变换 ...
Deep learning for visual understanding: A review 视觉理解中的深度学习：回顾之一
Deep learning for visual understanding: A review 视觉理解中的深度学习:回顾 ABSTRACT: Deep learning algorithms ar ...
视觉SLAM中的数学基础第二篇四元数
视觉SLAM中的数学基础第二篇四元数什么是四元数相比欧拉角,四元数(Quaternion)则是一种紧凑.易于迭代.又不会出现奇异值的表示方法.它在程序中广为使用,例如ROS和几个著名的SLAM ...
第六篇视觉slam中的优化问题梳理及雅克比推导
优化问题定义以及求解通用定义解决问题的开始一定是定义清楚问题.这里引用g2o的定义. \[ \begin{aligned} \mathbf{F}(\mathbf{x})&=\sum_{k\ ...
视觉SLAM中的数学基础第四篇李群与李代数（2）
前言理解李群与李代数,是理解许多SLAM中关键问题的基础.本讲我们继续介绍李群李代数的相关知识,重点放在李群李代数的微积分上,这对解决姿态估计问题具有重要意义. 回顾为了描述三维空间里的运动,我们 ...
视觉SLAM关键方法总结
点"计算机视觉life"关注,置顶更快接收消息! 最近在做基于激光信息的机器人行人跟踪发现如果单独利用激光信息很难完成机器人对行人的识别.跟踪等功能,因此考虑与视觉融合的方法,这样 ...
《视觉SLAM十四讲》学习日志(二)——初识SLAM
小萝卜机器人的例子: 就像这种机器人,它的下面有一组轮子,脑袋上有相机(眼睛),为了让它能够探索一个房间,它需要知道: 1.我在哪——定位 2.周围环境怎么样——建图定位和建图可以理解成感知的 &q ...
《视觉SLAM十四讲》第2讲
目录一视觉SLAM中的传感器二经典视觉SLAM框架三 SLAM问题的数学表述注:原创不易,转载请务必注明原作者和出处,感谢支持! 本讲主要内容: (1) 视觉SLAM中的传感器 (2) 经 ...

随机推荐

让isis支持高德地图
概述由于项目需要用到地图,虽然isis的插件库里有个现成的地图实现,不过用的google地图,虽然google地图可以不用注册Appkey,但完全打不开.所以打算改成国产地图. 效果先看下运行效果 ...
H5上传图片，并且显示进度条
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
PAT——1042. 字符统计
请编写程序,找出一段给定文字中出现最频繁的那个英文字母. 输入格式: 输入在一行中给出一个长度不超过1000的字符串.字符串由ASCII码表中任意可见字符及空格组成,至少包含1个英文字母,以回车结束( ...
Shell笔记-01
打开文本编辑器,新建一个文件,扩展名为sh(sh代表shell),扩展名并不影响脚本执行,见名知意就好,如果你用php写shell 脚本,扩展名就用php好了. 输入一些代码: #!/bin/bash ...
lwip 2.0.3 DNS 域名解析使用
1. 在 lwipopts.h 中 #define LWIP_DNS 1 /* 使能 DNS 服务器的功能 ,2018年1月8日21:16:20,suozhang */ #define LWIP_ ...
TTL电平, RS232电平以及CMOS电平的区别
TTL电平标准输出 L: <0.8V : H:>2.4V. 输入 L: <1.2V : H:>2.0V TTL器件输出低电平要小于0.8V,高电平要大于2.4V.输入,低于1 ...
Set集合之TreeSet类
TreeSet简介 TreeSet是SortedSet接口的实现类,正如SortedSet名字所暗示的,TreeSet可以确保集合元素处于排序状态.与HashSet集合相比,TreeSet还提供了如下 ...
[iOS]UIFont的lineHeight与pointSize
写这篇文章的初衷是由于我有一次想获取一个font的字体大小时使用了UIFont的lineHeight属性,结果是比字体的大小要大了一部分,然后经过查阅各种资料,发现了原因. 首先我们来看一看UIFon ...
Eclipse部署Web项目，常用操作和常见错误的解决方案
部署Web项目到tomcat 在eclipse中找到Servers项,打开服务器(F3)(建议直接删除服务器,重新建立再设置比较好)1.Servers Locations 中选择Use Tomcat ...
Java职业规划
java学习这一部分其实也算是今天的重点,这一部分用来回答很多群里的朋友所问过的问题,那就是我你是如何学习Java的,能不能给点建议?今天我是打算来点干货,因此咱们就不说一些学习方法和技巧了,直接来谈 ...

视觉SLAM中的深度估计问题

视觉SLAM中的深度估计问题的更多相关文章

随机推荐

热门专题