1 简介
IoU又名交并比,是一种计算不同图像相互重叠比例的算法,时常被用于深度学习领域的目标检测或语义分割任务中。
1.1 IoU在目标检测中的应用
在目标检测任务中,我们时常会让模型一次性生成大量的候选框(candidate bound),然后再根据每一个框的置信度对框进行排序,进而依次计算框与框之间的IoU,以非极大值抑制的方式,来判断到底哪一个是我们真正要找的物体,哪几个又该删除。例如在做人脸检测时,模型输出的可能是左图,而最终我们得到的是右图。
在我们得到最终的输出后,也可以拿输出框与原标记框(ground truth bound)之间的IoU,使用1-IoU来作为loss(区间[0,1]找极小值),并以此实现模型的迭代优化。
模型输出框(黄色)与真实人脸框(红色)计算IoU
1.2 IoU在语义分割中的应用
在语义分割任务里,我们同样可以计算图像中的预测区域与真实区域之间的IoU,并使用1-IoU作为Loss来对模型进行迭代优化。
使用模型抠出左图中的人像,右图红色区域为真实人像区域,黄色区域为模型预测结果
1.3 IoU的终极目标
通过上述几个例子,我们能够发现,计算IoU可以看做是在比较两个框或者两个图像的大小、区域、位置相不相同,进而可以把它想象成是在比较两个图像之间的几何图形相似度,那么我们不妨想一想,这个相似度都与哪些参数相关呢?我们能想到的有重叠比例、图形距离、形状相似度(矩形长宽比)等等。
下面我将为大家介绍IoU的计算原理,以及它是如何一步一步进行优化,朝着理想的方向迈进的。
2 IoU
2.1 IoU原理
IoU其实是Intersection over Union的简称,也叫‘交并比’。IoU在目标检测以及语义分割中,都有着至关重要的作用。
首先,我们先来了解一下IoU的定义:
直观来讲,我们可以把IoU的值定为为两个图形面积的交集和并集的比值,如下图所示:
通过IoU来评判两个图像的重合度具有以下几点优点:
- 具有尺度不变性;
- 满足非负性;
- 满足对称性;
但与此同时,IoU也有几点很明显的不足:
- 如果|A∩B|=0,也就是两个图像没有相交时,无法比较两个图像的距离远近;
- 无法体现两个图像到底是如何相交的。
我们可以认为,这个IoU初步满足了计算两个图像的几何图形相似度的要求,简单实现了图像重叠度的计算,但无法体现两个图形之间的距离以及图形长宽比的相似性。
2.2 IoU计算
下面我来带大家手动计算一下IoU:
2.3 IoU实现
Out: 0.23076923076923078
3 GIoU
3.1 GIoU原理
GIoU(Generalized Intersection over Union)相较于IoU多了一个‘Generalized’,这也意味着它能在更广义的层面上计算IoU,并解决刚才我们说的‘两个图像没有相交时,无法比较两个图像的距离远近’的问题。
GIoU的计算公式为:
其中C代表两个图像的最小包庇面积,也可以理解为这两个图像的最小外接矩形的面积。
由此我们可以看出:
- 原有IoU取值区间为[0,1],而GIoU的取值区间为[-1,1];在两个图像完全重叠时,IoU=GIoU=1,在两个图像距离无限远时,IoU=0而GIoU=-1。
- 与IoU只关注重叠区域不同,GIoU不仅关注重叠区域,还关注非重叠区域,这样能更好的的反映两个图像的重合度。 此时我们可以认为,GIoU完善了图像重叠度的计算功能,但仍无法对图形距离以及长宽比的相似性进行很好的表示。
注:GIoU论文地址https://arxiv.org/pdf/1902.09630.pdf
3.2 GIoU计算
3.3 GIoU实现
Out: 0.09743589743589745
4 DIoU
4.1 DIoU原理
GIoU虽然解决了IoU的一些问题,但是它并不能直接反映预测框与目标框之间的距离,DIoU(Distance-IoU)即可解决这个问题,它将两个框之间的重叠度、距离、尺度都考虑了进来,DIoU的计算公式如下:
其中b,bgt分别代表两个框的中心点,ρ代表两个中心点之间的欧氏距离,C代表最小包庇矩形的对角线,即如下图所示:
DIoU相较于其他两种计算方法的优点是:
- DIoU可直接最小化两个框之间的距离,所以作为损失函数的时候Loss收敛的更快;
- 在两个框完全上下排列或左右排列时,没有空白区域,此时GIoU几乎退化为了IoU,但是DIoU仍然有效。
此时我们可以认为,DIoU在完善图像重叠度的计算功能的基础上,实现了对图形距离的考量,但仍无法对图形长宽比的相似性进行很好的表示。
注:DIoU论文地址 https://arxiv.org/pdf/1911.08287.pdf
4.3 DIoU计算
通过计算可得,黄框中心点K、蓝框中心点J的坐标分别为:
K:(3,4) J:(6,6)
那么此时的DIoU计算公式为:
4.3 DIoU实现
Out: 0.1589460263493413
5 CIoU
5.1 CIoU原理
CIoU的全称为Complete IoU,它在DIoU的基础上,还能同时考虑两个矩形的长宽比,也就是形状的相似性,CIoU的计算公式为:
其中α是权重函数,而v用来度量长宽比的相似性:
可以看出,CIoU就是在DIoU的基础上,增加了图像相似性的影响因子,因此可以更好的反映两个框之间的差异性。
我们还需要注意的一点是,在使用CIoU作为Loss的时候,v的梯度同样会参与反向传播的计算,其中:
如果矩形的w和h均小于1,w2+h2的值则会很小,这样很容易出现梯度爆炸的现象,所以在计算v的梯度时,直接把
当做1来计算。
至此,我们终于完成了最初所定的目标,实现了对两个图像之间的重叠比例、图形距离、形状相似度(矩形长宽比)的综合度量。
注:CIoU论文与DIoU是同一篇。
5.2 CIoU计算
通过计算可得,黄框中心点K、蓝框中心点J的坐标分别为:
K:(3,4) J:(6,6)
此时CIoU的计算公式为:
由于最开始设定的两个矩形的形状相同,计算所得的形状惩罚项为0,因此此时CIoU=DIoU。由此可见,两个形状差别越大,CIoU相较于DIoU则越小。
5.3 CIoU实现
Out: 0.1589460263493413
参考文献:
https://zhuanlan.zhihu.com/p/111013447
https://www.zhihu.com/people/li-ge-35-18/posts