【CV现状-2】三维感知

#磨染的初心——计算机视觉的现状

【这一系列文章是关于计算机视觉的反思，希望能引起一些人的共鸣。可以随意传播，随意喷。所涉及的内容过多，将按如下内容划分章节。已经完成的会逐渐加上链接。】

缘起
三维感知
目标识别
3.0. 目标是什么
3.1. 图像分割
3.2. 纹理与材质
3.3. 特征提取与分类
3.4. 其它
目标（和自身）在三维空间中的位置关系
目标的三维形状及其改变、目标的位移
符号识别
数字图像处理

三维感知

首先需要指出的是，对于计算机来说视觉数据的最原始表示是数字图像——栅格（离散）化的三维世界在二维平面的投影，如果要还原三维世界需要经过复杂而耗时的处理过程；对于人眼来说似乎接直接接收到了三维数据。不管事实到底如何，从二维数字图像入手是计算机视觉不得不做出的选择。另外，基于多视几何的从数字图像还原三维世界的技术虽然已经趋于成熟，但是并没有在计算机视觉研究者中获得广泛的关注。 目前各种分割、目标检测、跟踪等算法方面的进展集中于处理二维数字图像，由此即可窥见计算机视觉当前的进展离“得出场景的完整理解”这个目标的巨大距离。还需了解的是，目前基于多视几何的三维重建相关技术的首要目标并没有将“得出场景的完整理解”考虑在内，仅仅是为了建立真实世界的可视化模型——格网贴图模型，其生产过程经历了自动连接点匹配、光速法平差、极（核）线像对生成、密集立体匹配、点云融合、点云构网、纹理贴图。到密集立体匹配这一步才生成了能够代表三维世界的离散点云数据，如果要获得超过一个像对视域范围的点云数据还需要进行点云融合。

考察我们自己理解场景的两种情形，观察真实的三维世界和观察二维图片，都可以感知到其中的三维信息。这仿佛暗示了基于多视几何的三维感知手段对于“得出场景的完整理解”并不是举足轻重的，其意义或许仅仅在于将真实三维环境与三维环境的透视投影图像区分开来，以防自主行使设备尝试走进一副画里。观察二维图片时，是如何感知三维信息的？基于个人的经验，认为利用了推理这种高级智能。在看到二维图片的一瞬间，人类就可以认出其中包含的目标，目标的二维透视投影形状以及目标在一定照明条件下形成的高光、阴影与三维形状有着对应关系，识别出对应关系就还原了三维信息。透视投影的规律是客观的，平行线的切线消失于灭点是每个人潜意思里的常识，它并没有包含在图片当中。也就是说图片自身对于感知图片的三维信息来说并不是完备的，还需要人类智能利用总结出来的规律和常识做出推理。

透视投影的规律是明确的，应该是计算机视觉的一项基本原理，上面的论述或许缺乏说服力。下面将给出另外一个例子，当观察一幅多山的卫星影像时，第一感觉会将稍暗的一面识别为山的南面，稍亮的一面识别为山的北面，然而却有一条流淌在山顶的河流，村庄和城镇都坐落在山峰的两侧，这是多么的诡异！直觉和认知产生了冲突，为什么会如此呢？因为在人类常处于的环境中，看得见的暗处一定是阴影，阴影处一定是前高后低。然而对于北半球上部朝北的卫星影像来说，是由太阳光从南向北照亮的，所以通常卫星影像上稍暗的一面为山的北面，稍亮的一面为山的南面。经过一定的思维训练，再次观看卫星影像时就可以直接感知到正确的三维地形。这是一个利用外部常识推理来进行三维感知出错的例子，因为所利用的外部常识并不是定律而是经常出现的事实——看得见的暗处一定是阴影，阴影处一定是前高后低。幸好还有其它的常识可以用来发现错误，比如江河绝对不会流淌在山顶上，村落和城镇不会坐落在山峰两侧。

在前文中默认了人类通过二维图片感知三维信息时首先识别出了目标，事实是否如此不得而知？至今尚未看到有人开展了相关研究。三维感知与目标识别的关系是什么？ 这是本文指出的第一项计算机视觉研究中的缺失。不妨大胆的猜测，三维感知和目标识别同时开始，初始结果的出现各有先后，之后开始相互促进。人类在观察真实的三维世界时，是否同时使用了基于多视几何的三维感知手段和基于常识推理的三维感知手段？这两种三维感知手段之间的关系是怎么样的？还是只能猜测，这两种三维感知手段同时进行，而目标识别则在基于多视几何的三维感知手段之后执行，同样初始结果的出现各有先后，之后开始相互促进。这是认知心理学的问题，随着本文的展开，将会看到更多与认知心理学相关的缺失。这说起来会有点可笑，毕竟每位计算机视觉的参与者都认为计算机视觉是包含了心理学的综合学科，然而涉及到心理学的问题都是依靠参与者的直觉，更遑论猜测和验证。