Recall用于衡量真值框G被召回的比例,即真值框G中有多少是被正确预测到的;

Precision用于衡量检测框D的精确程度,即预测到的检测框D中,都多少是真的。

1 传统评价指标计算方法

设定的iou阈值为0.5,即文本生成图像定量评价指标分析 文本识别评价指标_文本生成图像定量评价指标分析文本生成图像定量评价指标分析 文本识别评价指标_多对一_02的iou超过0.5,则为1,反之为0。

  • recall:对于每一个真值框计算iou>0.5的部分。
  • precision:对于每一个预测框计算iou>0.5的部分。
  • 对检测方法的衡量:

文本生成图像定量评价指标分析 文本识别评价指标_评价指标_03

  • hmean(F1-measure):

文本生成图像定量评价指标分析 文本识别评价指标_多对一_04


2 SIoU-metric

使用文本生成图像定量评价指标分析 文本识别评价指标_文本生成图像定量评价指标分析_05文本生成图像定量评价指标分析 文本识别评价指标_一对多_06的具体iou值作为衡量,如果iou<0.5则被设置为0。

  • iouRecall: 对于每一个真值框计算iou>0.5的部分。
  • iouPrecision:对于每一个预测框计算iou>0.5的部分。
  • 对检测方法的衡量:

文本生成图像定量评价指标分析 文本识别评价指标_文本生成图像定量评价指标分析_07

  • iouHmean:

文本生成图像定量评价指标分析 文本识别评价指标_评价指标_08


3 TIoU-metric

现有评价指标存在的问题,如图1-1:

(a) 蓝色的框并没有完整的检测出“province”,在检测不完全的情况下,IOU达到一定阈值即认为检测到了,这在文本检测中会丢失信息。识别部分无法识别出检测所丢失的信息。

(b)、(c)、(d)含有背景噪声,但此时precision已经是100%,会给识别带来影响。例如,(c)中,识别模型很难区分哪一个ground-truth才是detect所真实对应的。(d)中同时遇到了(a)和(c)的问题。

文本生成图像定量评价指标分析 文本识别评价指标_多对一_09

图1-1:行文本检测案例(蓝色的为detect,红色的为ground-truth)


在行文本检测中,有三种情况(蓝色的为detect,红色的为ground-truth):

一对一(one to one):

文本生成图像定量评价指标分析 文本识别评价指标_多对一_10

一对多(one to more)

文本生成图像定量评价指标分析 文本识别评价指标_一对多_11

多对一(more to more)

文本生成图像定量评价指标分析 文本识别评价指标_多对一_12


检测的目的是为了识别,以往的评价指标并没有关注文本内容等信息,TIoU提出三个概念去加强文本内容信息: 

1、text instance不能被分割成多个文本区域 

2、annotation应该尽可能包含更少的背景噪声,特别是别的文本实例内容 

3、annotation应该尽可能的被检测得到的text instance完美匹配

此评价指标要求更关注GT的每一个部分,确保文本的完整性;并且将其他文本的GT包含进来将会被惩罚,更关注检测结果的简洁。指标输出有区分性,不单单是一个阈值,即0.9的iou比0.5iou指标更高。

TIoU-Recall:关于TIoU的计算,引入了一个惩罚机制即交集与GT的一个比例惩罚限制最终指标,避免一个阈值决定结果,出现对识别部分的干扰。

TIoU-Precision:如果一个检测结果覆盖了好几个GT,这样的情况也会有个惩罚,毕竟框进来别的文本会对识别造成干扰而导致识别出错。

Tightness-aware Metric:评价检测框的紧密程度,计算detect和ground-truth的匹配程度时不是1就是0,如果阈值是0.5,导致了IOU0.51和1的结果是相同的。

在该评价方式中,解决一对多,多对一的方式是:

文本生成图像定量评价指标分析 文本识别评价指标_评价指标_13

具体计算方法:

以下,A()代表Area,表示面积, A(∗) means the area of the region 。

  • tiou-Recall: 在衡量one to many的情况(一个真值框对应多个检测框)中,检测框是检测到真值中的一部分,造成识别错误,需要对这类检测框加以惩罚。

对于第i个真值框,真值框文本生成图像定量评价指标分析 文本识别评价指标_多对一_14中的漏检部分:

文本生成图像定量评价指标分析 文本识别评价指标_一对多_15

真值框文本生成图像定量评价指标分析 文本识别评价指标_一对多_16与检测框文本生成图像定量评价指标分析 文本识别评价指标_评价指标_17的重合比例:

 

文本生成图像定量评价指标分析 文本识别评价指标_评价指标_18

Gi被检测到的面积 = 1-Gi漏检的面积Gi的面积

文本生成图像定量评价指标分析 文本识别评价指标_一对多_19

所以,每一个真值框i的recall为:

文本生成图像定量评价指标分析 文本识别评价指标_文本生成图像定量评价指标分析_20

  • tiou-Precision: 在衡量many to one(一个检测框对应多个真值框)中,如果检测框范围过大,包含了多个真值框,对识别造成影响,则需要对检测框加以惩罚。

对于第j个检测框,检测框文本生成图像定量评价指标分析 文本识别评价指标_多对一_21中所有异常的真值框文本生成图像定量评价指标分析 文本识别评价指标_评价指标_22的面积为:

文本生成图像定量评价指标分析 文本识别评价指标_一对多_23

检测框文本生成图像定量评价指标分析 文本识别评价指标_文本生成图像定量评价指标分析_24的重合比例为:

文本生成图像定量评价指标分析 文本识别评价指标_多对一_25

所以,每一个检测框文本生成图像定量评价指标分析 文本识别评价指标_多对一_26的precision为:

文本生成图像定量评价指标分析 文本识别评价指标_一对多_27

  • 对检测方法的衡量

文本生成图像定量评价指标分析 文本识别评价指标_一对多_28

  • tiou-Hmean:

文本生成图像定量评价指标分析 文本识别评价指标_一对多_29


再补充一点点,不怎么常用

4 IoU-metric

所有检测框和所有真值框交集面积/所有检测框和所有真值框并集面积。

文本生成图像定量评价指标分析 文本识别评价指标_一对多_30

补充:ICDAR 2015 IoU Metric

To be considered a correct detection, the value of Intersection-over-Union must exceed 0.5.

文本生成图像定量评价指标分析 文本识别评价指标_一对多_31


关于TIoU的代码之后再传,今天这电脑上木有。(lll¬ω¬) 

文本生成图像定量评价指标分析 文本识别评价指标_一对多_32

是对 Tightness-aware Evaluation Protocol for Scene Text Detection 的个人理解