#磨染的初心——计算机视觉的现状

【这一系列文章是关于计算机视觉的反思,希望能引起一些人的共鸣。可以随意传播,随意喷。所涉及的内容过多,将按如下内容划分章节。已经完成的会逐渐加上链接。】

  1. 缘起
  2. 三维感知
  3. 目标识别
    3.0. 目标是什么
    3.1. 图像分割
    3.2. 纹理与材质
    3.3. 特征提取与分类
    3.4. 其它
  4. 目标(和自身)在三维空间中的位置关系
  5. 目标的三维形状及其改变、目标的位移
  6. 符号识别
  7. 数字图像处理

三维感知

首先需要指出的是,对于计算机来说视觉数据的最原始表示是数字图像——栅格(离散)化的三维世界在二维平面的投影,如果要还原三维世界需要经过复杂而耗时的处理过程;对于人眼来说似乎接直接接收到了三维数据。不管事实到底如何,从二维数字图像入手是计算机视觉不得不做出的选择。另外,基于多视几何的从数字图像还原三维世界的技术虽然已经趋于成熟,但是并没有在计算机视觉研究者中获得广泛的关注。 目前各种分割、目标检测、跟踪等算法方面的进展集中于处理二维数字图像,由此即可窥见计算机视觉当前的进展离“得出场景的完整理解”这个目标的巨大距离。还需了解的是,目前基于多视几何的三维重建相关技术的首要目标并没有将“得出场景的完整理解”考虑在内,仅仅是为了建立真实世界的可视化模型——格网贴图模型,其生产过程经历了自动连接点匹配、光速法平差、极(核)线像对生成、密集立体匹配、点云融合、点云构网、纹理贴图。到密集立体匹配这一步才生成了能够代表三维世界的离散点云数据,如果要获得超过一个像对视域范围的点云数据还需要进行点云融合。

考察我们自己理解场景的两种情形,观察真实的三维世界和观察二维图片,都可以感知到其中的三维信息。这仿佛暗示了基于多视几何的三维感知手段对于“得出场景的完整理解”并不是举足轻重的,其意义或许仅仅在于将真实三维环境与三维环境的透视投影图像区分开来,以防自主行使设备尝试走进一副画里。观察二维图片时,是如何感知三维信息的?基于个人的经验,认为利用了推理这种高级智能。在看到二维图片的一瞬间,人类就可以认出其中包含的目标,目标的二维透视投影形状以及目标在一定照明条件下形成的高光、阴影与三维形状有着对应关系,识别出对应关系就还原了三维信息。透视投影的规律是客观的,平行线的切线消失于灭点是每个人潜意思里的常识,它并没有包含在图片当中。也就是说图片自身对于感知图片的三维信息来说并不是完备的,还需要人类智能利用总结出来的规律和常识做出推理。

透视投影的规律是明确的,应该是计算机视觉的一项基本原理,上面的论述或许缺乏说服力。下面将给出另外一个例子,当观察一幅多山的卫星影像时,第一感觉会将稍暗的一面识别为山的南面,稍亮的一面识别为山的北面,然而却有一条流淌在山顶的河流,村庄和城镇都坐落在山峰的两侧,这是多么的诡异!直觉和认知产生了冲突,为什么会如此呢?因为在人类常处于的环境中,看得见的暗处一定是阴影,阴影处一定是前高后低。然而对于北半球上部朝北的卫星影像来说,是由太阳光从南向北照亮的,所以通常卫星影像上稍暗的一面为山的北面,稍亮的一面为山的南面。经过一定的思维训练,再次观看卫星影像时就可以直接感知到正确的三维地形。这是一个利用外部常识推理来进行三维感知出错的例子,因为所利用的外部常识并不是定律而是经常出现的事实——看得见的暗处一定是阴影,阴影处一定是前高后低。幸好还有其它的常识可以用来发现错误,比如江河绝对不会流淌在山顶上,村落和城镇不会坐落在山峰两侧。

在前文中默认了人类通过二维图片感知三维信息时首先识别出了目标,事实是否如此不得而知?至今尚未看到有人开展了相关研究。三维感知与目标识别的关系是什么? 这是本文指出的第一项计算机视觉研究中的缺失。不妨大胆的猜测,三维感知和目标识别同时开始,初始结果的出现各有先后,之后开始相互促进。 人类在观察真实的三维世界时,是否同时使用了基于多视几何的三维感知手段和基于常识推理的三维感知手段?这两种三维感知手段之间的关系是怎么样的? 还是只能猜测,这两种三维感知手段同时进行,而目标识别则在基于多视几何的三维感知手段之后执行,同样初始结果的出现各有先后,之后开始相互促进。这是认知心理学的问题,随着本文的展开,将会看到更多与认知心理学相关的缺失。这说起来会有点可笑,毕竟每位计算机视觉的参与者都认为计算机视觉是包含了心理学的综合学科,然而涉及到心理学的问题都是依靠参与者的直觉,更遑论猜测和验证。

【CV现状-2】三维感知的更多相关文章

  1. 【CV现状-3.3】特征提取与描述

    #磨染的初心--计算机视觉的现状 [这一系列文章是关于计算机视觉的反思,希望能引起一些人的共鸣.可以随意传播,随意喷.所涉及的内容过多,将按如下内容划分章节.已经完成的会逐渐加上链接.] 缘起 三维感 ...

  2. 【CV现状-3.2】纹理与材质

    #磨染的初心--计算机视觉的现状 [这一系列文章是关于计算机视觉的反思,希望能引起一些人的共鸣.可以随意传播,随意喷.所涉及的内容过多,将按如下内容划分章节.已经完成的会逐渐加上链接.] 缘起 三维感 ...

  3. 【CV现状-3.1】图像分割

    #磨染的初心--计算机视觉的现状 [这一系列文章是关于计算机视觉的反思,希望能引起一些人的共鸣.可以随意传播,随意喷.所涉及的内容过多,将按如下内容划分章节.已经完成的会逐渐加上链接.] 缘起 三维感 ...

  4. 【CV现状-3.0】"目标"是什么

    #磨染的初心--计算机视觉的现状 [这一系列文章是关于计算机视觉的反思,希望能引起一些人的共鸣.可以随意传播,随意喷.所涉及的内容过多,将按如下内容划分章节.已经完成的会逐渐加上链接.] 缘起 三维感 ...

  5. 【CV现状-1】磨染的初心——计算机视觉的现状:缘起

    #磨染的初心--计算机视觉的现状 [这一系列文章是关于计算机视觉的反思,希望能引起一些人的共鸣.可以随意传播,随意喷.所涉及的内容过多,将按如下内容划分章节.已经完成的会逐渐加上链接.] 缘起 三维感 ...

  6. Microsoft HoloLens 技术解谜(上)

    HoloLens 是什么? HoloLens 是微软发布的可穿戴式增强现实计算设备,它拥有这么几个关键要素: 它是增强现实产品,即 Augmented Reality(AR),AR 技术将计算机生成的 ...

  7. 微软HoloLens技术解谜

    HoloLens 是什么? HoloLens 是微软发布的可穿戴式增强现实计算设备,它拥有这么几个关键要素: 它是增强现实产品,即 Augmented Reality(AR),AR 技术将计算机生成的 ...

  8. Convolutional Neural Networks 笔记

    1 Foundations of Convolutional Neural Networks 1.1 cv问题 图像分类.目标检测.风格转换.但是高像素的图片会带来许多许多的特征. 1.2 边缘检测( ...

  9. 英特尔实感3D摄像头

    RealSense 3D(实感3D)是英特尔提供的一套感知计算解决方案,包括了手势的识别.控制,人脸的识别.认证.控制,语音识别与控制,增强现实,3D扫描和重构等许多先进的技术.包括立体眼镜(暂未公开 ...

随机推荐

  1. SQL查询优化实践

    为什么要优化 系统的吞吐量瓶颈往往出现在数据库的访问速度上,即随着应用程序的运行,数据库的中的数据会越来越多,处理时间会相应变慢,且数据是存放在磁盘上的,读写速度无法和内存相比 如何优化 设计数据库时 ...

  2. Java并发之synchronized关键字深度解析(一)

    前言 近期研读路神之绝世武学,徜徉于浩瀚无垠知识之海洋,偶有攫取吉光片羽,惶恐未领略其精髓即隐入岁月深处,遂急忙记录一二,顺备来日吹cow之谈资.本小系列为并发之亲儿子-独臂狂侠synchronize ...

  3. Sting类字符串

    一.声明字符串 在java语言中字符串必须包含在一对双引号(" ")之内,但不能作为其他数据类型来使用,如"1+2"的输出结果不可能是3: 可以通过以下语法格式 ...

  4. The place where I want to go

    The place where I want to go It’s hard to say where I want to go most. Because there are too many pl ...

  5. df命令、du命令、磁盘分区 使用介绍

    第4周第1次课(4月9日) 课程内容:4.1 df命令4.2 du命令4.3/4.4 磁盘分区 4.1 df命令 汇报磁盘空间使用情况,linux磁盘挂载点是无法直接访问的. df 和 df -h区别 ...

  6. python读写配置文件使用总结与避坑指南

    关于今天的内容 最近拿python在写项目部署的相关集成代码,本来两天的工作量,硬是在来回的需求变更中,拖到了一周的时间.今天算是暂时告一段落了.这次由于涉及多个系统的调用和配置参数,代码开发中出现了 ...

  7. 使用curl创建简单的性能监控工具

    cURL,全称Command Line URL viewer,是一种命令行工具,用来发送网络请求,然后得到和提取数据,显示在标准输出(stdout). 我们可以使用curl来获取网页的源码,显示头信息 ...

  8. 使用Docker测试静态网站

    参考书籍 :第一本docker书[澳]James Turnbull  1.Sample网站的初始Dockerfile 文件目录如下: Dockerfile文件代码: 安装nginx 在容器中创建一个目 ...

  9. luogu P2701 [USACO5.3]巨大的牛棚Big Barn |动态规划

    题目描述 农夫约翰想要在他的正方形农场上建造一座正方形大牛棚.他讨厌在他的农场中砍树,想找一个能够让他在空旷无树的地方修建牛棚的地方.我们假定,他的农场划分成 N x N 的方格.输入数据中包括有树的 ...

  10. echarts 堆叠柱状图 + 渐变柱状图

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...