Recall用于衡量真值框G被召回的比例,即真值框G中有多少是被正确预测到的;
Precision用于衡量检测框D的精确程度,即预测到的检测框D中,都多少是真的。
1 传统评价指标计算方法
设定的iou阈值为0.5,即与的iou超过0.5,则为1,反之为0。
- recall:对于每一个真值框计算iou>0.5的部分。
- precision:对于每一个预测框计算iou>0.5的部分。
- 对检测方法的衡量:
- hmean(F1-measure):
2 SIoU-metric
使用与的具体iou值作为衡量,如果iou<0.5则被设置为0。
- iouRecall: 对于每一个真值框计算iou>0.5的部分。
- iouPrecision:对于每一个预测框计算iou>0.5的部分。
- 对检测方法的衡量:
- iouHmean:
3 TIoU-metric
现有评价指标存在的问题,如图1-1:
(a) 蓝色的框并没有完整的检测出“province”,在检测不完全的情况下,IOU达到一定阈值即认为检测到了,这在文本检测中会丢失信息。识别部分无法识别出检测所丢失的信息。
(b)、(c)、(d)含有背景噪声,但此时precision已经是100%,会给识别带来影响。例如,(c)中,识别模型很难区分哪一个ground-truth才是detect所真实对应的。(d)中同时遇到了(a)和(c)的问题。
图1-1:行文本检测案例(蓝色的为detect,红色的为ground-truth)
在行文本检测中,有三种情况(蓝色的为detect,红色的为ground-truth):
一对一(one to one):
一对多(one to more)
多对一(more to more)
检测的目的是为了识别,以往的评价指标并没有关注文本内容等信息,TIoU提出三个概念去加强文本内容信息:
1、text instance不能被分割成多个文本区域
2、annotation应该尽可能包含更少的背景噪声,特别是别的文本实例内容
3、annotation应该尽可能的被检测得到的text instance完美匹配
此评价指标要求更关注GT的每一个部分,确保文本的完整性;并且将其他文本的GT包含进来将会被惩罚,更关注检测结果的简洁。指标输出有区分性,不单单是一个阈值,即0.9的iou比0.5iou指标更高。
TIoU-Recall:关于TIoU的计算,引入了一个惩罚机制即交集与GT的一个比例惩罚限制最终指标,避免一个阈值决定结果,出现对识别部分的干扰。
TIoU-Precision:如果一个检测结果覆盖了好几个GT,这样的情况也会有个惩罚,毕竟框进来别的文本会对识别造成干扰而导致识别出错。
Tightness-aware Metric:评价检测框的紧密程度,计算detect和ground-truth的匹配程度时不是1就是0,如果阈值是0.5,导致了IOU0.51和1的结果是相同的。
在该评价方式中,解决一对多,多对一的方式是:
具体计算方法:
以下,A()代表Area,表示面积, A(∗) means the area of the region 。
- tiou-Recall: 在衡量one to many的情况(一个真值框对应多个检测框)中,检测框是检测到真值中的一部分,造成识别错误,需要对这类检测框加以惩罚。
对于第i个真值框,真值框中的漏检部分:
真值框与检测框的重合比例:
即 Gi被检测到的面积 = 1-Gi漏检的面积Gi的面积
所以,每一个真值框i的recall为:
- tiou-Precision: 在衡量many to one(一个检测框对应多个真值框)中,如果检测框范围过大,包含了多个真值框,对识别造成影响,则需要对检测框加以惩罚。
对于第j个检测框,检测框中所有异常的真值框的面积为:
检测框的重合比例为:
所以,每一个检测框的precision为:
- 对检测方法的衡量
- tiou-Hmean:
再补充一点点,不怎么常用
4 IoU-metric
所有检测框和所有真值框交集面积/所有检测框和所有真值框并集面积。
补充:ICDAR 2015 IoU Metric
To be considered a correct detection, the value of Intersection-over-Union must exceed 0.5.
关于TIoU的代码之后再传,今天这电脑上木有。(lll¬ω¬)
是对 Tightness-aware Evaluation Protocol for Scene Text Detection 的个人理解