目标检测近年中国数据集_损失函数

在追求科技创新的道路上,倍赛科技从未停止前进的步伐。近日,由倍赛科技申请的关于面向人工数据标注的图像目标边界框位置调节方法的发明专利成功被国家知识产权局受理。

下面将简要对此专利进行解读。

技术亮点

1.模拟标注员视角,从边界差距的角度,对画框进行评估。

2.以缩小边界差距为目标,指导画框模型训练和筛选。

简单来讲,此专利可用于优化目标检测预标注技术,通过自动化的标注工具,对数据进行预处理,使其在进行标注时变得更加简单高效,从而提升数据标注的精度与速度,降低标注成本。

痛点

目标检测是计算机视觉中的一个常见任务。其评估指标则通常从分类、重叠区域、性能等多方面进行考量。其中,重叠区域就是指预测的目标物体的边界框(简称:预测框)与真实答案中的边界框(简称:真实框)的重叠程度,通常基于IoU交并比(Intersection over Union)来评估:用P代表预测框,G代表真实框。IoU = (P∩G) / (P∪G)。

目标检测近年中国数据集_机器学习_02

然而,基于IoU的评估指标并不适用于标注场景。在标注员而言,当模型提供的预测框与目标边框差距超过容忍范围时(例如:3个像素),就会认为两个框的边不是贴合的。也就会认定模型的结果有错。至于两个框重叠率有多高并不是非常在意。

所以,按照常规方式训练的模型对于标注场景并不友好。

解决方案

专利提出了一种在训练的评估环节遵照标注场景进行边界框重合程度衡量的方法。用它自动筛选合适的模型超参数,并进一步将这种评估指标调整成可导形式,融入到损失函数中,指导模型的训练。

以此来模拟标注员在审核预测框时对边界误差的容忍程度,自动评估预测框与真实框之间的差距,并统计所需的手工调整次数。

目标检测近年中国数据集_人工智能_03

例如:标注员容忍的框边的误差为4个像素。那么对于上图的真实框(绿色)和预测框(红色)。有三条边都已经满足要求,而左边因差5个像素,需要手动做一次调整。

 

对于验证集里的每个样本,都采用上述方式,衡量各个边是否需要调整,并统计整个验证集上需要做的手动操作次数M。这个值就反映了当前模型在标注场景里的效果。

藉由这种自动化的评估方式,可以在模型训练的任意阶段,用验证集对模型进行评测。同样,还可用它来帮助挑选模型的超参数。

以网格搜索法为例,假设模型含有A、B两个超参数,A考察三个值(a1,a2,a3),B考察两个值(b1,b2),则穷举后,产生6种超参数组合(a1b1,a1b2,a2b1,a2b2,a3b1,a3b2)。针对每组超参数,训练模型,并记下最低的M值和模型。最后,选取6组中M值最低的模型。

作为评估指标,一条边是否需要手动调整是确定的。操作次数m为:

目标检测近年中国数据集_机器学习_04

d表示预测框与真实框的某条对应边的距离。k表示标注员容忍的距离差。

m值是分段的,无法直接作为损失函数的一部分指导模型训练,将其转化为概率的形式。

我们参考sigmoid函数和二分类交叉熵函数,提出如下的损失函数来评估边的预测位置:

目标检测近年中国数据集_损失函数_05

其中,k是容忍的(2倍)边距差。β是一个缩放因子,用于控制函数对边距的敏感程度。下图是当k=6,β=90时的样子(用来模拟3个像素的边距差):

目标检测近年中国数据集_目标检测_06

当k=6,β=10时:

目标检测近年中国数据集_目标检测_07

将m视作操作惩罚,追加到模型训练时的损失函数中,就可以从标注员要求的角度对模型的训练进行管控。 

专利价值

在引入了上述方法后,便可自动实现了模型的超参数筛选和权重调整,用以贴合标注人员的评判场景。经实验,该优化方案,在自动驾驶场景中,可使目标检测预标注模型节省高达44.5%的人工标注操作,同时数据质量及标注效率都将得到进一步提升。