一:视觉计算理论与算法研究( 由×××自动化研究所马颂德等完成)

    "视觉计算理论与算法研究"的目标主要是研究计算机视觉,以使计算机具有通过二维图像感知三维环境信息的能力,包括感知、描述、理解和识别。计算机视觉属信息科学领域,它的研究成果对探索人类的认知过程与智能的本质具有十分重要的理论意义,也将为计算机与机器人开辟全新的应用前景。视觉计算理论与算法是模式识别国家重点实验室自1987年成立以来的主要研究方向。10多年来,项目组依托于实验室良好的科研环境,对视觉计算理论与算法进行了系统的研究,在计算理论框架、早期视觉处理、摄像机定标、三维结构重建、视频与医学图像理解等方向取得了一系列创新成果。
    1.新的计算理论框架,在计算理论层次上引进了视觉系统与视觉环境和模型知识的交互作用,有效地解除了视觉信息约束中的非线性问题,大大降低了问题的计算复杂性,提高了计算机视觉系统的鲁棒性。从该计算理论出发,在国际上较早地提出了主动视觉系统的摄像机线性定标。
     2.新的计算理论框架,在计算理论层次上引进了局部信息与整体信息的交互作用,有效地提高了视觉信息处理的抗噪声能力,从该计算理论出发,在国际上首次提出基于图象整体几何信息的物体三维重建算法、运动参数估计算法、纹理图像分析与合成算法等;
     3.以新的计算理论框架为指导,深入研究了视觉计算中的一些基础性问题(如图像分割、特征分析与提取、相似性度量、摄像机标定等),提出了有重要创新意义的观点与算法,纠正和澄清了学术界的一些错误或不准确的认识和观点; 
     4.以新的计算理论框架为指导,深入研究了图像视频信息的检索、医学图像分析和动态序列图像语义理解等几个有重要应用价值的视觉计算问题,提出了基于时空流的视频分析、医学图像分割、三维医学图像匹配以及物体运动行为理解与描述等一系列新的算法。
与已有的计算理论与算法比较,该项目在视觉计算理论上系统地考虑了各层次间的相互作用以及视觉系统与视觉环境的充分交互,吸取了交叉学科的成果,既更接近近年来认知心理学的实验证据,也给出了系统的计算模型与方法。

视觉计算理论简介【转】_计算视觉
视觉计算理论简介【转】_CV_02 视觉计算理论简介【转】_CV_03

二: 视觉计算理论(最新模式识别之一)

       从七十年代以来,随着认知心理学自身的发展,认知心理学关于模式识别的研究在取向上出现了某些重要的变化。一些认知心理学家继续在物理符号系统假设的基础上进行研究,探讨计算机和人的识别模式的特点;而另一些认知心理学家则转向用神经网络的思想来研究识别模式的问题。下面介绍的一些模型是近十多年来有重要影响的理论模型。

  视觉计算理论(computational theory of vision)是在20世纪70年代由马尔(David Marr)提出的。1982发表代表作《视觉计算理论》。

  马尔认为,视觉就是要对外部世界的图像(iamge)构成有效的符号描述,它的核心问题是要从图像的结构推导出外部世界的结构。视觉从图像开始,经过一系列的处理和转换,最后达到对外部现实世界的认识。


三个重要概念:

表征(representation):指能把某些客体或几类信息表达清楚的一种形式化系统,以及说明该系统如何行使其职能的若干规则。使用某一表征描述某一实体所得的结果,就是该实体在这种表征下的一个描述。

处理(process):是指某种操作,它促使事物的转换。视觉从接收图像到认识一个在空间内排列的、完整的物体,需要经过一系列的表征阶段。从一种表征转换为另一种表征,必须借助于某些处理过程。

零交叉(zero crossing)代表明暗度的不连续变化或突然变化,是形成物体轮廓的基础。对零交叉的检测就是视觉系统对二维表面轮廓或边界的检测。

人和机器的最终目的:了解一个场景或一个图像的意义。

马尔把视觉图像的形成划分为三个阶段。阶段如下:

⑴二维基素图(2-D sketch):视觉过程的第一阶段,由输入图像而获得基素图。视觉的这一阶段也称为早期视觉。所谓基素图主要指图像中强度变化剧烈处的位置及其几何分布和组织结构,其中用到的基元包括斑点、端点、边缘片断、有效线段、线段组、曲线组织、边界等。这些基元都是在检测零交叉的基础上产生的。

这一阶段的目的在于把原始二维图像中的重要信息更清楚地表示出来。

⑵ 2.5维要素图:视觉过程的第二阶段,通过符号处理,将线条、点和斑点以不同的方式组织起来而获得2.5维图。视觉过程的这一阶段也称为中期视觉。所谓2.5维图指的是在以观察者为中心的坐标系中,可见表面的法线方向、大致的深度以及它们的不连续轮廓等,其中用到的基元包括可见表面上各点的法线方向、和各点离观察者的距离(深度)、深度上的不连续点、表面法线方向上的不连续点等等。由于2.5维图中包含了深度的信息,因而比二维要多,但还不是真正的三维表示,所以得名2.5维图。

视觉的这一阶段,按马尔的理论,是由一系列相对独立的处理模块组成的。这些处理模块包括:体现、运动、由表面明暗恢复形状、由表面轮廓线恢复形状、由表面纹理恢复形状等。它的作用是揭示一个图像的表面特征。马尔声称,早期视觉加工的目标就是要建立一个2.5维的要素图,这是把一个表面解释为一个特定的物体或一组物体之前的最后一步。

⑶三维模型表征(3-D model representation):视觉过程的第三阶段,由输入图像、基素图、2.5维图而获得物体的三维表示。视觉过程的这一阶段,也称为后期视觉。所谓物体的三维表示指的是在以物体为中心的坐标系中,用含有体积基元(即表示形状所占体积的基元)和面积基元的模块化分层次表象,描述形状和形状的空间组织形式,其表征包括容积、大小和形状。

当三维模型表征建立起来时,其最终结果是对我们能够区别的物体的一种独特的描述。


评论:

⑴马尔的视觉理论把视觉研究从描述水平提高到数理科学的严密水平,因而它一出现就深受神经科学家、人工智能专家和认知心理学家的推崇。

⑵批评:马尔对视觉的解释主要集中在视觉加工的早期阶段;除要素图以外,他设想的各种表征还没有得到神经生理学的证明。他把知识的作用限制在视觉加工的晚期阶段,也引起一些人的怀疑。还有人认为,知觉开始于大范围拓扑性质的提取,而不是对个别特征的分析。人的视觉系统的功能具有拓扑性,它注重整体性质而忽略局部性质,因而对视觉的计算性质提出了尖锐的挑战。

三:视觉计算理论的修正
       戴维.马尔的视觉计算理论,我们称其为半截子视觉理论.他关于视觉是一个信息处理过程的认识是正确的.我们的观点可以看作是这一认识的发展,即视觉是接收、处理、再现信息的过程。但在这种大原则正确的基础之上,马尔却犯了一个致命的错误,将视觉信息处理过程的起点定位在“视网膜像”上。而“视网膜像”是传统视觉认识中的一个错误。这一作法导致视觉计算理论需要解决的第一个问题:如何从二维信息(图像)中再现出三维信息?就是一个不存在答案的虚假问题。 
       该问题的提出是建立在传统视觉认识(生理光学)基础之上的,即眼的屈光成像在先,视觉信息处理过程在后。从信息的角度分析:“视网膜像”的形成是一个三维信息转换成二维信息过程,而视觉信息处理过程是二维信息再转换回三维信息的过程。从三维信息转换成二维信息是一个可以实现的过程,但转换的结果是二维信息中已经没有了三维信息中的部分信息(信息失真),而已不存在的信息不可能再现出来,所以二维信息无法再转换回三维信息。因此二维信息再现三维信息是一个不可能实现的过程。这样该问题即变为;二维信息不能转换成三维信息,但视觉生理中怎么才能实现这一转换过程呢?这只能是一条不可能寻找到答案的失败之路。 
       视觉计算理论可以修正。这种修正只需要提出一个新的问题即可:眼外的三维信息是如何转换成视觉中的三维信息的?解决这一问题的关健是抛弃传统视觉认识中的眼屈光成像的观念,建立眼—脑视觉通路是一个完整信息处理过程的新观念。如此视觉信息处理过程的起点的定位应在眼—脑视觉结构的最前端-----角膜。这样视觉信息处理过程开始接收到的便是自然光传递的三维信息,最终在视皮层中的再现信息(视觉计算理论中的“表像”)仍是三维的。而旧认识中的瓶颈二维的“视网膜像”,便可被新的三维的可见光信号所取代。这是一个存在答案的问题,这是一个在视觉生理中可以实现的过程。 
      视觉计算理论必须修正,否则再多的算法也只能是与视觉生理毫无关系的数学游戏,是不可能在物理层次上实现的。

来自:

http://www.most.gov.cn/ztzl/gjkxjsjldh/jldh2004/zr/Z-107-2-03.htm

http://hi.baidu.com/baodao/blog/item/ed5cf9f263494e10b07ec518.html

http://gnohiah.bokee.com/3310768.html