人工智能中图像分类、目标检测、语义分割和实例分割等任务是什么?

近年来,计算机视觉及其相关领域发展十分迅速,相关技术已经被应用到人类生产和生活的各个领域。

我们耳熟能详的任务有人脸识别、步态识别、虹膜识别、车辆检测以及医学图像处理等。 实际上,计算机视觉本身包含众多的研究方向,本文仅仅介绍下面几个互相关联的任务:

图像分类:Image Classification

语义分割:Semantic Segmentation

目标检测:Object Detection

实例分割:Instance Segmentation

需要注意的是,本文的目的并不是针对上述四种任务的发展与原理进行综述,而仅仅是指出几种任务的关联和区别,借以明确各自的研究目标。

概念与定义

下图展示了图像分类、语义分割、目标检测、实例分割四种任务:

深度学习图片分类项目的实际应用 图像分类项目_机器学习

上图展示了四种任务的研究目标,具体如下:

图像分类:判别图中物体是什么,比如是猫还是狗;
语义分割:对图像进行像素级分类,预测每个像素属于的类别,不区分个体;
目标检测:寻找图像中的物体并进行定位;
实例分割:定位图中每个物体,并进行像素级标注,区分不同个体;

一、图像分类

图像分类任务目的是判断图像中包含物体的类别,如果期望判别多种物体则称为多目标分类。需要注意的是,基本的图像分类任务并不要求给出物体所在位置,也不需要判断含有物体的数量。下图中含有多种物体,分类任务的目标可以是判断图片中是否含有“狗”(图来自BigGAN):

深度学习图片分类项目的实际应用 图像分类项目_人工智能_02


二、语义分割语义分割任务需要对图像中所有像素点进行分类,将相同类别的像素归为相同的标签(常常采用相同的像素点表示)。需要特别注意的是,语义分割是在像素级别进行的。下图(来自FefineNet)中展示了街景分割,图中的街道、车辆、树木和行人等分别采用不同的颜色进行标注,即进行了语义级别的分割。

深度学习图片分类项目的实际应用 图像分类项目_人工智能_03

三、目标检测

如果项目的需求是精确的定位出图像中某一物体类别信息和所在位置,则应该选择目标检测算法。基于深度学习的目标检测算法主要分为单阶段(one-stage)和两阶段(two-stage)两种,单阶段算法的速度较快,两阶段算法的精度较高(总体上)。下图(来自YOLOv1)展示了各种目标检测任务,比如左边检测的目标是鹰,右边检测的目标是飞机,均精确的预测出了目标所在的位置:

深度学习图片分类项目的实际应用 图像分类项目_人工智能_04

四、实例分割

相比于语义分割,实例分割不仅需要将图像中所有像素进行分类,还需要区分相同类别中不同个体。比如,语义分割只需要将下图中的所有猫的像素进行归类,而实例分割需要将猫这一类中单独的个体进行像素分类。

深度学习图片分类项目的实际应用 图像分类项目_人工智能_05


五、总结

上述的四种任务每一个都是非常值得研究的领域,均包含众多优秀的论文。其中图像分类任务最为基础,在ImageNet上训练得到的ResNet、Vgg、DenseNet和MobileNet等网络均在其它任务上被广泛应用,作为很多论文的Backbone网络。