计算机视觉学习

文章目录

  • 计算机视觉学习
  • 前言
  • 【计算机视觉学习一】计算机视觉简述
  • 计算机视觉的发展
  • 计算机视觉任务常用技术
  • 计算机视觉任务的应用
  • 计算机视觉面临的挑战



前言

在学习机器视觉的过程中,将所学知识记录下来,方便自己以后查看。


【计算机视觉学习一】计算机视觉简述

计算机视觉是从图像或者视频中提出符号或者数值信息,分析计算该信息以进行目标的识别、检测和跟踪等。更形象的说,计算机视觉就是让计算机像人类一样能看到图像,并看懂理解图像。

计算机视觉的发展

计算机视觉开始于20世纪50年代,主要用于分析和识别二维图像,如光学字符识别、显微图片的分析解释等。
到60年代,通过计算机程序可以将二维图像转换成三维结构进行分析,从此开启三维场景下计算机视觉研究。
到70年代,麻省理工学的人工智能实验室院首次开开设计算机视觉课程,由著名的Horn教授主讲,同实验室的Marr教授首次提出表示形式(representation)是视觉研究最重要的问题。到80,90年代,计算机视觉迅速发展,形成感知特征的新理论框架并逐渐应用到工业环境中。
到21世纪 ,计算机视觉领域呈现许多新的趋势,计算机视觉与计算机图形学深度结合,基于计算机视觉的应用也呈爆炸性增长,除了在手机、电脑上的应用,计算机视觉技术在交通、安防、医疗、机器人上有各种各样形态的应用。

计算机视觉任务常用技术

计算机视觉是让计算机获取图像到看懂图像的过程。图像处理能力赋予了计算机看即获取的能力,是人工智能的重要输入。这里主要介绍数字图像处理技术,即将图像信号转化成数字信号再用计算机进行处理的技术。

图像处理的目的,是将输入的低质量的图像转化成高质量的图像输出,常用的方法有图像压缩编码、图像变换、图像描述、图像增强和复原。图像压缩编码是减少描述图像的比特数,以节省传输和存储消耗。图像变换旨在减少计算量,如将空间域的图像阵列变换成频域空间去处理。图像描述(representation)是图像理解的前提,其作用是挖掘一般或主要信息去描述图像。图像增强和复原主要用于提高图像质量,如去除噪声,强化高频信息等。以上图像处理技技术主要依赖一些数学变换。

模式识别、机器学习、深度学习等算法赋予计算机看懂的能力,是人工智能的核心,更形象的说就是让计算机像人的大脑去理解图像。模式识别、机器学习、深度学习是让机器感知或学习的工具或方法,本文不对它们进行区别,主要帮助读者理解这些方法是如何帮助计算机理解图像或者视频的。让计算机看懂的过程,就是根据图像或者视频数据建模的过程,建模就是用数学符号或者公式推理数据之中的一般模式或者规律,从而可以对新输入的数据进行分类或者回归,分类就是输出数据的类别,回归类似与数学中的映射函数,输出数据的可能值。

计算机视觉任务的应用

随着信息技术的发展,计算机视觉应用在人们的日常生活中、学术界和工业界已屡见不鲜,计算机视觉应用呈爆炸式增长,这里重点介绍计算机视觉任务的三大应用,分别是图像识别、目标检测和图像分割。
图像识别又叫图像分类,就是输入一张图片,输出该图像的类别,让计算机识别人、交通信号灯、动物等这些信息,这是广义上的图像识别。在工业界和学术界还有针对特定目标的识别,比如车牌识别,在高速公路的ETC口,不需要人工收费,摄像头会识别你的车牌并收取相应的费用。另外人脸识别在日常生活中也得到了广泛的应用,如支付宝的人脸支付等。

计算机视觉任务中另一个常见的应用是目标检测,其目的是输出给定图像中特定目标的位置,类别等。由此可见,目标检测是对目标识别的进一步发展,计算机不仅要输出图像中目标的位置,还要给出目标的类别。目标检测一个常见的应用是行人检测,比如在一个交通路口,快速地检测出摄像头中拍到的所有行人,可以估计人流数,从而对异常事件进行预警。

与计算机视觉任务相关的第三个任务是目标分割,图像分割又可分为图像语义分割和个体分割。图像语义分割是将图像分割成一个个独立的个体,每个个体具有一定的语义意义。图像个体分割是比图像语义分割更进一步的任务,其是图像语义分割和图像检测的结合,即不仅要独立出所有的物体,还要输出所有物体的位置。图像分割是计算机解释图像的过程,这类似于人理解图像,就需要找出图像中一个个的物体,找出物体之间的关系等。以上三个计算机视觉任务的难度逐渐增加,并逐渐模拟人类理解图像的过程。另外,计算机视觉任务并不局限于上述三个应用,还有许多有用的应用,如目标跟踪。

计算机视觉面临的挑战

未来计算机视觉任务发展面临的挑战主要来自三个方面:
1)有标注的图像和视频数据较少,机器在模拟人类智能进行认知或者感知的过程中,需要大量有标注的图像或者视频数据指导机器学习其中一般的模式。当前,主要依赖人 工标注海量的图像视频数据,不仅费时费力而且没有统一的标准,可用的有标注的数据有限,这使机器的学习能力受限;
2)计算机视觉技术的精度有待提高,如在物体检测任务中,当前最好的检测正确率为66%,这样的结果只能应用于对正确率要求不是很高的场景下;
3)提高计算机视觉任务处理的速度迫在眉睫,图像和视频信息需要借助高维度的数据进行表示,这是让机器看懂图像或视频的基础,这就对机器的计算能力和算法的效率提出很高的要求。