在计算机视觉中,图像标注是最重要的工作之一。
在大量应用程序中,计算机视觉本质上是拥有一双机器眼睛——拥有看见世界和解读世界的能力。
有时,机器学习项目的目的在于解锁那些黑科技,例如增强现实技术、自动语音识别和神经网络机器翻译,这些AI应用程序拥有改变全球范围内个体生命和企业的潜能。同样的,计算机视觉能够带给人们的技术体验(如自动驾驶汽车、面部识别、无人机等等)也是超凡的。
然而,没有图像标注,计算机视觉的一切高超技术皆无可能。本文将解释何为图像标注,以及五项由众多世界级训练数据公司提供的图像标注服务。
什么是图像标注?
图像标注是一项用标签标注图像的工作。这些标签由AI 工程师预设,并被选取以为计算机视觉模型提供信息,展示图像的内容。
由于项目不同,每一图像上的标签数量也各不相同。一些项目仅需一个标签就可以表示整幅图像的内容(图像分类)。而另外一些项目可能需要给多个对象打标签,每一图像都需要不同的标签。
图像标注如何工作?
创建标注图像需要三样东西:
1. 图像
2. 标注图像的人
3. 标注图像的平台
大多图像标注项目都起步于寻找和训练标注师,从而实现标注任务。AI 是个极其专业化的领域,但是AI 训练数据标注并非总是如此。为了打造一辆自动驾驶汽车,也许需要在机器学习领域获得更高学历,但并不需要获得在图像上划汽车边框(边界框标注)的硕士学位。因此,许多标注师都没有机器学习领域相关学历。
然后,需要对这些标注师进行有关每一标注项目技术规范和指引的充分训练,因为每个公司都会有不同的要求。只要标注师进行了如何标注数据的训练,他们就会在一个图像标注专用平台上标注成百上千的图像。这个平台是一款软件,为了某一特定标注类型的实现,它必须包含所有必要工具。
5种常见图像标注服务
1. 2D 和3D 边界框
使用2D 边界框,标注师必须在要标注的对象四周划边框。有时这些目标对象是一样的,即“请在图像中的每辆自行车四周划边框”。
也会存在不止一个目标对象的情况,“请在图像中的每一辆汽车、每个行人及每一辆自行车周围划边框”。在这种情况下,划好边框后,标注师接着需要从标签列表中选取一些标签分配给每一边框内的对象。
3D 边界框,也称为立方体,除了还可以展现被标注对象的近似深度,几乎和2D 边界框是一样的。和2D 边界框标注类似,标注师在目标对象周围划边框,确保在对象的边缘放置了锚点。有时目标对象的某个部分可能是成块的。在这种情况下,标注师会大概估计目标对象成块边缘的位置。
2. 图像分类
边界框在一幅图像中处理了多个对象的标注,而图像分类则是将整幅图像与一个标签联系起来的过程。图像分类的一个简单例子就是给动物种类注明标签。标注师会得到动物图像,其任务就是基于物种对图像进行分类。
将这类已标注图像的数据导入计算机视觉模型能让模型理解每一类动物特有的可视化特征。理论上来说,模型随之能够对未标注的新动物图像进行较准确的物种分类。
3. 直线与曲线
顾名思义,直线与曲线标注是在图像上给直线或曲线打标签。标注师的任务是标注车路、人行道、电线杆以及其他表明边界的事物。标注了直线和曲线的图像主要用于车路和边界的识别。它们也常用于无人机的路径规划。
从自动驾驶汽车和无人机,载到仓库中的机器人及其他事物,直线与曲线标注在多种情况下都适用。
4. 多边形
有时,不规则目标对象无法通过边界框或立方体进行简单标注。多边形标注使得标注师能够在目标对象的每一顶点绘制点位。无论形状如何,这一标注方法能够准确标注对象的所有边缘。
正如边界框,标注边缘内的像素点随后会被打上标签以描绘目标对象。
5. 语义分割
边界框、立方体和多边形都处理了一幅图像内单个对象的标注任务。然而,语义分割是某一图像内每一像素点的标注。给标注师的是一系列分割标签以分离图像,而不是一系列需要标注的对象。
语义分割有个很好的实例,就是交通图像中的自动驾驶汽车。其典型任务是要求标注师“按汽车、自行车、行人、路障、人行道、行车道和建筑物分割图像”。
每一部分通常以某种独特的颜色表示。标注师在要标注的像素点周围画线,并选择合适的标签。最终结果将如下所示: