转载 | 机器人配视觉
一台机器为什么能看到你?因为它有了自己的视觉。机器视觉技术是一门涉及人工智能、神经生物学、心理物理学、计算机科学、图像处理、模式识别等诸多领域的交叉学科。机器视觉主要用计算机来模拟人的视觉功能,从客观事物的图像中提取信息,进行处理并加以理解,最终用于实际检测、测量和控制,技术最大的特点是速度快、信息量大、功能多。
机器视觉主要用计算机来模拟人的视觉功能,但并不仅仅是人眼的简单延伸,更重要的是具有人脑的一部分功能一一从客观事物的图像中提取信息,进行处理并加以理解,最终用于实际检测、测量和控制。
一个典型的工业机器视觉应用系统,包括数字图像处理技术、机械工程技术、控制技术、光源照明技术、光学成像技术、传感器技术、模拟与数字视频技术、计算机软硬件技术、人机接口技术等。
发展历史简介
机器视觉的研究是从20世纪60年代中期美国学者L.R.罗伯兹关于理解多面体组成的积木世界研究开始的。当时运用的预处理、边缘检测、轮廓线构成、对象建模、匹配等技术,后来一直在机器视觉中应用。
罗伯兹在图像分析过程中,采用了自底向上的方法。用边缘检测技术来确定轮廓线,用区域分析技术将图像划分为由灰度相近的像素组成的区域,这些技术统称为图像分割。其目的在于用轮廓线和区域对所分析的图像进行描述,以便同机内存储的模型进行比较匹配。
实践表明,只用自底向上的分析太困难,必须同时采用自顶向下,即把目标分为若干子目标的分析方法,运用启发式知识对对象进行预测。这同言语理解中采用的自底向上和自顶向下相结合的方法是一致的。在图像理解研究中,A.古兹曼提出运用启发式知识,表明用符号过程来解释轮廓画的方法不必求助于诸如最小二乘法匹配之类的数值计算程序。
70年代以后,机器视觉形成几个重要研究分支:一、目标制导的图像处理;二、图像处理和分析的并行算法;三、从二维图像提取三维信息;四、序列图像分析和运动参量求值;五、视觉知识的表示;六、视觉系统的知识库等。
全球应用情况
在国外,机器视觉的应用普及主要体现在半导体及电子行业,其中大概40%-50%都集中在半导体行业。机器视觉系统还在质量检测的各个方面已经得到了广泛的应用,并且其产品在应用中占据着举足轻重的地位。除此之外,机器视觉还用于其他各个领域。
而在中国,视觉技术的应用开始于90年代,因为行业本身就属于新兴的领域,再加之机器视觉产品技术的普及不够,导致以上各行业的应用几乎空白。目前国内机器视觉大多为国外品牌。国内大多机器视觉公司基本上是靠代理国外各种机器视觉品牌起家,随着机器视觉的不断应用,公司规模慢慢做大,技术上已经逐渐成熟。
在行业应用方面,主要有制药、包装、电子、汽车制造、半导体、纺织、烟草、交通、物流等行业,用机器视觉技术取代人工,可以提供生产效率和产品质量。例如在物流行业,可以使用机器视觉技术进行快递的分拣分类,不会出现大多快递公司人工进行分拣,减少物品的损坏率,可以提高分拣效率,减少人工劳动。
主要问题和发展瓶颈
机器视觉可以看作是与人工智能和模式识别密切相关的一个子学科或子领域。限制机器视觉发展的瓶颈是多方面的,其中最重要的可以归结为三个方面:计算能力不足、认知理论未明以及精确识别与模糊特征之间的自相矛盾。
1.机器视觉面向的研究对象主要是图像和视频,其特点是数据量庞大、冗余信息多、特征空间维度高,同时考虑到真正的机器视觉面对的对象和问题的多样性,单一的简单特征提取算法(如颜色、空间朝向与频率、边界形状等等)难以满足算法对普适性的要求,因此在设计普适性的特征提取算法时对计算能力和存储速度的要求是十分巨大的,这就造成了开发成本的大幅度提高。
2. 如何让机器认知这个世界?这一问题目前没有成熟的答案,早期的人工智能理论发展经历了符号主义学派、行为主义学派、连接主义学派等一系列的发展但都没有找到令人满意的答案,目前较新的思想认为应该从分析、了解和模拟人类大脑的信息处理功能去构建智能机器视觉系统,但神经科学的发展目前只能做到了解和模拟大脑的一个局部,而不是整体(当然计算能力限制也是原因之一)。事实上,我们对人是如何对一个目标或场景进行认知的这一问题仍停留在定性描述而非定量描述上。
3. 机器视觉系统经常被人诟病的问题之一就是准确性。以十年前如火如荼的人脸识别算法为例,尽管一系列看似优秀的算法不断问世,但目前为止在非指定大规模样本库下进行人脸识别的准确率仍然无法满足实际应用的需求,因此无法取代指纹或虹膜等近距接触式生物特征识别方法。这一问题的出现并非偶然。因为目标越精细,越复杂,信息越大,则其模糊性和不确定性也越强。人类之所以能够较好的对人脸进行识别,其实也是以牺牲一定的准确性为代价的。而机器视觉在做的事情一方面想要借鉴人脑或人眼系统的灵感去处理复杂而庞大的信息流,另一方面又想摒除人脑在模式识别方面存在的精确性不足的缺陷。这显然是一种一厢情愿的做法。
综合以上三点,机器视觉的发展在短期内难有重大突破,当前的实用技术仍然还是会集中在特定性任务或特定性目标的识别算法的开发上。
关于视觉测量研究:
(1)机器视觉测量的可靠性。相比与其他测量手段,视觉的最大优点就是可以快速获得三维信息,一张或几张照片就可以重建出被测物体的三维特征,进而实现测量。但正如大家所说,只要测量条件、环境、被测物表面特性等改变,有时甚至时稍加改变,结果则大不一样,测量重复性和精度更无从谈起。这也是目前机器视觉测量尺寸、位姿等参数时比较突出的问题,特别是在一些强光干扰、温度场变化、光照条件变化的应用场合这个问题尤为突出。因此,视觉测量的环境适应性问题解决难度很大,无法找到普适性的方法,只能针对具体问题,研究相应光照、特征提取、匹配、重建、标定等具体方法。
(2)测量精度问题。精度是测量系统的重要指标。视觉测量精度依赖于相机分辨率、视场大小、图像处理算法等等。CCD和CMOS的制造工艺已取得长足进步,目前6000*4000pixel的分辨率已经成为稳定商品。而采用压电驱动芯片做微米级移动进行像素细分的方法和设备已经商品化,号称分辨率可近20000*14000pixel。在软件方面,各类算法层出不穷,但具有普适性的算法几乎没有,这个在CV领域也是如此。因此,提高视觉测量的普适性、并确保精度,目前似乎是个不可能完成的任务。
综上,视觉测量要大的突破确实很难,必须和应用光学、视觉认知、CV、人工智能等相关学科进行深度交叉。
提升三维技术
在现实生活中,我们越来越需要更多的三维模型来实现对物体或环境的全面掌握。获得三维模型有两种基本方式,一种是利用激光扫描仪,一种是拍摄照片。但激光扫描仪的成本高,也有可能会对样本带来一些损害。第二种方式的成本小,而且在精度上也跟激光扫描仪相差无几,因此成为了现在研究的一个热点。
我们知道,一般的图像上是没有长度、距离等深度信息的,而三维模型则能更加全面、精确地记录环境,可以直观呈现物体的位置、距离、姿态等。比如中国古代建筑全自动三维重建系统,能够实现全自动三维建模,即从底层图像处理到生成最终的三维模型,全部自动实现,无需人工交互。它对图像的拍摄方式也无特殊约束和限制,只需手持自由拍摄即可。在精度上,也与激光扫描精度相当,精度小于3cm/100米,通过配备更高像素数量的相机和长焦镜头还可以实现毫米级重建。
此外,在实时定位与在线三维重建方面,机器视觉也具有极大的应用潜力。将手机上摄像头读取的视频作为输入,通过初始化、特征点提取、动态模板特征点匹配、几何变化计算阶段后得到视频每一帧中感兴趣区域的位置。
目前,我国基于机器视觉的三维重建技术在国际上可以说处于领先地位,应用也比较广泛。除了上述之外,还能用在一些不太适合人工作业的环境监测方面,像对露天煤矿的监测,就是通过无人机对煤矿进行全方位拍摄,生成三维模型来实时监测矿山的变化。此外,也能应用于城市规划、数字媒体、三维试衣、牙模制造等多方面。
未来发展趋势
由于机器视觉是自动化的一部分,没有自动化就不会有机器视觉,机器视觉软硬件产品正逐渐成为协作生产制造过程中不同阶段的核心系统,无论是用户还是硬件供应商都将机器视觉产品作为生产线上信息收集的工具,这就要求机器视觉产品大量采用标准化技术,直观地说就是要随着自动化的开放而逐渐开放,可以根据用户的需求进行二次开发。
当今,自动化企业正在倡导软硬一体化解决方案,机器视觉的厂商在未来十年内也应该不单纯是只提供产品的供应商,而是逐渐向一体化解决方案的系统集成商迈进。随着中国加工制造业的发展,对于机器视觉的需求也逐渐增多。随着机器视觉产品的增多,技术的提高,国内机器视觉的应用状况将由初期的低端转向高端。由于机器视觉的介入,自动化将朝着更智能、更快速的方向发展。