SfMLearner 记录

2019年7月12日18:42:34

写了个更细致的公式推导和代码解释的 sfmlearner剖析

2019年3月2日09:29:54

正在看SfMLearner的pytorch源码，意识到无监督的深度估计最重要的是利用实体的一致性

来建立loss。

对于一个不移动的物体，相机从一个pose到另一个pose，那个东西一直在那，可以通过

三维结构、光照等不会突变来建立loss。

对于移动的刚性物体，比如汽车，可以先检测出来，再做一致性的约束。

对于移动的非刚性物体，比如人啊、狗啊之类的，还需要另外的模型来描述。我记得是有

不少这方面的优秀的工作的。

可以做的比生成一个检测运动区域的mask 更近一步。

2019年3月6日15:55:31

又看到了arxiv上好几篇无监督的单目深度估计论文看起来还不错...

深度学习加slam的方向发展太快了...

2019年3月11日19:05:37

static_frames.txt 是采集数据的车子停下来的画面的图像编号。

看了一天的sfmlearner和struct2depth的 tf 代码。struct2depth报了个错，还没跑起来。

忽然想到把单目深度估计发展出来的技巧用到双目上，岂不是又可以提升一波？

想要重构一下 tf 的代码以方便调试，发现 tf 根本就没有什么操作空间啊！tf 真的是反人类！

真的有茴字的四种写法这个问题。。。

2019年3月13日09:11:46

看的是下面这个库里的代码：

https://github.com/ClementPinard/SfmLearner-Pytorch

因为要训练自己拍的视频，所以要了解data_loader。自己的数据集肯定没有kitti那么复杂，

就是拍了视频，然后分解成图片。就 000001.jpg、000002.jpg、...... 加上一个内参

 首先是读入了图片并resize到 128 x 416大小

 # 在 kitti_raw_loader.py   load_image 函数

 img = scipy.misc.imread(img_file)

 zoom_y = self.img_height/img.shape[0]  # 这里把原始图片resize到指定尺寸了

 zoom_x = self.img_width/img.shape[1]   # self.img_height = 128  self.img_width = 416

 img = scipy.misc.imresize(img, (self.img_height, self.img_width))

 return img, zoom_x, zoom_y  # 返回的是长宽的比例系数

 然后是读入了原始的相机矩阵P，并乘以上面的缩放系数

 # get_P_rect 函数

 filedata = self.read_raw_calib_file(calib_file)

 P_rect = np.reshape(filedata['P_rect_' + scene_data['cid']], (3, 4))

 # 这里读入了 投影矩阵 P 并 reshape 成了 3 x 4 的矩阵

 # P_rect_02:

 # [[ 7.183351e+02  0.000000e+00  6.003891e+02  4.450382e+01]

 # [ 0.000000e+00  7.183351e+02  1.815122e+02 -5.951107e-01]

 # [ 0.000000e+00  0.000000e+00  1.000000e+00  2.616315e-03]]

 P_rect[0] *= zoom_x  # 对第一行和第二行乘以一个比例系数

 P_rect[1] *= zoom_y

 return P_rect

 然后是做了

 scene_data['intrinsics'] = scene_data['P_rect'][:,:3] # 只取前3列，得到内参

 得到缩放后的内参

 这样的话，图片也缩放到了指定尺寸，内参也缩放了，可以送入网络了

 自己的数据也要做一样的操作。

 然后是 sequence_folders.py

 for i in range(demi_length, len(imgs)-demi_length): # 1，321-1

     sample = {'intrinsics': intrinsics, 'tgt': imgs[i], 'ref_imgs': []}

     for j in shifts: # shifts = [-1, 1]

         sample['ref_imgs'].append(imgs[i+j])  # tgt 是 i   ref 是 i-1 和 i+1

 到了实际要输入网络的时候，再__getitem__读入图片并做 transform

 custom_transforms.py里也有对图片做随机裁剪时内参要做什么操作的代码。

2019年3月22日13:12:11

之前训练了一个晚上的sfmlearner，1600张图片，跑了200个epoch，valid loader误用了

train_transform，不过应该没什么大碍，但是最后看效果相当不好，只能简单的区分出远近，

而且预测出来的深度闪来闪去。这个纯当练手了，不打算继续训练了。

需要注意的一点是：手机拍摄自己的训练视频时，尽量走快一点，不要停留!

我手机拍的视频，绕着建筑物走一圈，拍了差不多五分钟，8100张图片，

但是看图片的话帧间运动有点小，所以每隔5帧抽一帧出来训练，所以只有1600张图片。

还简单训练了下LKVO，或者叫DDVO，收敛的确比较快，但是运动部分和黑色区域的预测简直

就是反的！离的近的预测成了离的远！可能是我迭代次数不够。后续有时间再细读代码。

搞 struct2depth 去了。

SfMLearner 记录的更多相关文章

记一次debug记录：Uncaught SyntaxError: Unexpected token ILLEGAL
在使用FIS3搭建项目的时候,遇到了一些问题,这里记录下. 这里是发布搭建代码: // 代码发布时 fis.media('qa') .match('*.{js,css,png}', { useHash ...
nginx配置反向代理或跳转出现400问题处理记录
午休完上班后,同事说测试站点访问接口出现400 Bad Request Request Header Or Cookie Too Large提示,心想还好是测试服务器出现问题,影响不大,不过也赶紧上 ...
Kali对wifi的破解记录
好记性不如烂笔头,记录一下. 我是在淘宝买的拓实N87,Kali可以识别,还行. 操作系统:Kali 开始吧. 查看一下网卡的接口.命令如下 airmon-ng 可以看出接口名称是wlan0mon. ...
2015 西雅图微软总部MVP峰会记录
2015 西雅图微软总部MVP峰会记录今年决定参加微软MVP全球峰会,在出发之前本人就已经写这篇博客,希望将本次会议原汁原味奉献给大家因为这次是本人第一次写会议记录,写得不好的地方希望各位园友见谅 ...
分享一个SQLSERVER脚本（计算数据库中各个表的数据量和每行记录所占用空间）
分享一个SQLSERVER脚本(计算数据库中各个表的数据量和每行记录所占用空间) 很多时候我们都需要计算数据库中各个表的数据量和每行记录所占用空间这里共享一个脚本 CREATE TABLE #tab ...
我是如何在SQLServer中处理每天四亿三千万记录的
首先声明,我只是个程序员,不是专业的DBA,以下这篇文章是从一个问题的解决过程去写的,而不是一开始就给大家一个正确的结果,如果文中有不对的地方,请各位数据库大牛给予指正,以便我能够更好的处理此次业务. ...
前端学HTTP之日志记录
前面的话几乎所有的服务器和代理都会记录下它们所处理的HTTP事务摘要.这么做出于一系列的原因:跟踪使用情况.安全性.计费.错误检测等等.本文将谥介绍日志记录记录内容大多数情况下,日志的记录出于两 ...
ASP.NET Core应用中如何记录和查看日志
日志记录不仅对于我们开发的应用,还是对于ASP.NET Core框架功能都是一项非常重要的功能特性.我们知道ASP.NET Core使用的是一个极具扩展性的日志系统,该系统由Logger.Logger ...
python+uwsgi导致redis无法长链接引起性能下降问题记录
今天在部署python代码到预生产环境时,web站老是出现redis链接未初始化,无法连接到服务的提示,比对了一下开发环境与测试环境代码,完全一致,然后就是查看各种日志,排查了半天也没有查明是什么原因 ...

随机推荐

Sublime Text 3(3207)安装
Sublime Text 3207 下载官网地址: Sublime Text 下载需要的类型安装插件安装插件管理器: 打开Sublime,点击Tools => Install Packag ...
CSS中line-height继承问题
在CSS中,line-height属性用于设置多行元素的空间量,比如文本.对于块级元素,它指定元素行盒的最小高度.对于非替代的inline元素,它用于计算行盒的高度. 语法 /* Keyword va ...
Unity攻略
Unity开发VR之Vuforia 本文提供全流程,中文翻译. Chinar 坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) Chinar -- ...
CSS-图片占位的技巧
图片占位技巧,防止动态获取图片网络慢,页面一跳一跳的情况发生 .food .image-header { position: relative; width: 1 ...
UVa 297 四分树
感觉特别像那个分治的日程表问题.是f的话就填,否则就不填,然后同一个表填两次.那么就是最后的结果. #include <iostream> #include <cstring> ...
浅谈session和cookie
含义: session(会话):指用户登录网站后的一系列动作,比如浏览商品添加到购物车并购买 cookie:用户身份的一种标识区别: 1.Cookie通过在客户端记录信息确定用户身份,Session ...
前端代理----whistle
场景一:如何将本地的请求代理到服务器上(如果接口没有校验登陆的情况) 最简单的方法:在项目文件中找到webpack开发环境的配置文件,配置devServer对象 devServer: { conten ...
Oracle 批量增加 / 批量跟新
在使用oracl过程中踩到好多坑,在此记录,也分享给大家. 第一:批量插入代码一(在为明确表和字段的情况下,动态批量增加): @Insert("<script> " ...
Python项目依赖并生成requirements.txt
一起开发项目的时候总是要搭建环境和部署环境的,这个时候必须得有个python第三方包的list,一般都叫做requirements.txt. 如果一个项目使用时virtualenv环境,还好办 pip ...
《XX重大技术需求征集系统》的可用性和可修改性战术分析
题目:阅读<大型网站技术架构:核心原理与案例分析>第五.六章,结合<某重大技术需求征集系统>,列举实例分析采用的可用性和可修改性战术,将上述内容撰写成一篇1500字左右的博客阐 ...

SfMLearner 记录

SfMLearner 记录的更多相关文章

随机推荐

热门专题