计算机视觉总览

1 视觉概述

计算机视觉源自人类视觉,即一般所说的视觉。视觉在人类对客观世界的观察和认知中起重要作用。人类从外界获得的信息约有75%来自视觉系统,这既说明视觉信息量巨大,也表明人类对视觉信息有较高的利用率。人类视觉过程可看作是一个复杂的从感觉(感受到的是对3-D世界之2-D投影得到的图像)到知觉(由2-D图像认知3-D世界的内容和含义)的过程,如下图所示。
鸟瞰计算机视觉_二进制

视觉分为视感觉和视知觉
鸟瞰计算机视觉_理工_02

视感觉是较低层次的,它主要接收外部刺激; 一般感觉对外部刺激是基本不加区别地完全接收。视感觉主要是从分子的层次和观点来理解人们对光(即可见辐射)反应的基本性质(如亮度、颜色),它主要涉及物理、化学等学科。

视知觉则是较高层次,它要将外部刺激转化为有意义的内容,要确定所关心的“目标”由外界刺激的哪些部分组合而成的。视知觉主要论述人们从客观世界接收到视觉刺激后如何反应以及反应所采用的方式。它研究如何通过视觉形成人们关于外在世界空间的表象,所以兼有心理因素。

视觉的最终目的从狭义上说是要能对客观场景做出对观察者有意义的解释和描述,从广义上讲,还包括基于这些解释和描述并根据周围环境和观察者的意愿来制定出行为规划,并作用于周围的世界,这实际上也就是计算机视觉的目标。

计算机视觉目标是是要用计算机来实现人类的视觉功能,即对客观世界中三维场景的感知、加工和解释。视觉研究的原始目的是把握和理解有关场景的图像,辨识和定位其中的目标,确定它们的结构、空间排列和分布以及目标间的相互关系等。计算机视觉的研究目标是根据感知到的图像对客观世界中实际的目标和场景做出有意义的判断。

2 计算机视觉相关的学科

鸟瞰计算机视觉_二进制_03

2.1 图像工程

图像工程包括既有联系又有区别的三个层次:图像处理、图像分析及图像理解

图像处理着重强调在图像之间进行的转换(图像入图像出)。比较狭义的图像处理主要关注的是输出图像的视觉观察效果,包括:
(1)对图像进行各种加工调整以改善图像的视觉效果并有利于后续高层加工的进行;
(2)对图像进行压缩编码,在保证所需视觉感受的基础上减少所需存储空间或传输时间,满足给定传输通路的要求;
(3)给图像增加—些附加信息但又不影响原始图像的外貌等。

图像分析主要是对图像中感兴趣的目标进行检测和测量,以获得它们的客观信息从而建立对图像中目标的描述(图像入数据出)。这里数据可以是对目标特征测量的结果,或是基于测量的符号表示。它们描述了图像中目标的特点和性质。

图像理解的重点是在图像分析的基础上进一步研究图像中各目标的性质和它们之间的相互联系,并得出对整幅图像内容含义的理解以及对原来成像客观场景的解释,从而可以让人们做出判断,并指导和规划行动。如果说图像分析主要是以观察者为中心研究客观世界(主要研究可观察到的事物),那么图像理解在一定程度上则是以客观世界为中心,并借助知识、经验等来把握和解释整个客观世界(包括没有直接观察到的事物)。(基于图像处理和分析的)图像理解与计算机视觉有相同的目标,都是借助工程技术的手段,通过客观场景所获得的图像来实现对场景的认识和解释。它们可以看作是专业和背景不同的人习惯使用的不同术语。

2.2 机器视觉

机器视觉或机器人视觉与计算机视觉有着千丝万缕的联系,很多情况下都作为同义词使用。具体地说,一般认为计算机视觉更侧重于场景分析和图像解释的理论和方法,而机器视觉则更关注通过视觉传感器获取环境的图像,构建具有视觉感知功能的系统以及实现检测和辨识物体的算法。另一方面,机器人视觉更强调机器人的机器视觉,要让机器人具有视觉感知功能。

2.3 模式识别

模式是指有相似性但又不完全相同的客观事物或现象所构成的类别。模式包含的范围很广,图像就是模式的一种。(图像)模式识别与图像分析则比较相似,它们有相同的输人,而不同的输出结果可以比较方便地进行转换。识别是指从客观事实中自动建立符号描述或进行逻辑推理的数学和技术,因而人们定义模式识别为对客观世界中的物体和过程进行分类、描述的学科。目前,对图像模式的识别主要集中在对图像中感兴趣内容(目标)进行分类、分析和描述,在此基础上还可以进一步实现计算机视觉的目标。同时,计算机视觉的研究中也使用了很多模式识别的概念和方法,但视觉信息有其特殊性和复杂性,传统的模式识别(竞争学习模型)并不能把计算机视觉全部包括进去。

2.4人工智能和机器学习

人类智能主要指人类理解世界、判断事物、学习环境、规划行为、推理思维、解决问题等的能力。人工智能则指由人类用计算机模拟、执行或再生某些与人类智能有关的功能的能力和技术。视觉功能是人类智能的一种体现,所以计算机视觉与人工智能密切相关。计算机视觉的研究中使用了许多人工智能技术,反过来,计算机视觉也可看作是人工智能的一-个重要应用领域,需要借助人工智能的理论研究成果和系统实现经验。机器学习是人工智能的核心,它研究如何使计算机模拟或实现人类的学习行为,从而获取新的知识或技能,这是计算机视觉完成复杂视觉任务的基础。

2.5计算机图形学

图形学原本指用图形、图表、绘图等形式表达数据信息的科学,而计算机图形学研究的就是如何利用计算机技术来产生这些形式,它与计算机视觉也有密切的关系。一般人们将计算机图形学称为计算机视觉的反/逆( inverse )问题,因为视觉从2-D图像提取3~D信息,而图形学里使用3-D模型来生成2-D场景图像(更一般的是从非图像形式的数据描述来生成逼真的图像)。需要注意的是,与计算机视觉中存在许多不确定性相比,计算机图形学处理的多是确定性问题,是通过数学途径可以解决的问题。在许多实际应用中,人们更多关心的是图形生成的速度和精度,即在实时性和逼真度之间取得某种妥协。

3 计算机视觉应用领域

鸟瞰计算机视觉_二进制_04