概述
图像标注(Image Captioning)将一张图片翻译为一段描述性文字,需要机器用模型去理解图片的内容,还要用自然语言去表达这些内容并生成人类可读的句子。
评价指标
由于现实中对每一种图的标注结果进行人工评判的成本很高,所以研究者提出了一些自动评价图像标注效果的方法。
BLEU(Bilingual Evaluation Understudy)
BLEU主要用来评估机器翻译和专业人工翻译之间的相似度。后来该指标被引入到图像标注任务中,用来评估机器生成的文本同人工注释之间的相似度。相似度的度量是基于N-gram匹配间接计算出来的。BLEU评价算法中的三个重要部分是,(1)N-gram匹配精度的计算,(2)针对标注文本长度小于参考注释的惩罚机制,(3)为了平衡N-gram不同阶之间的精度差别而采用的几何平均。
优点:
- 评测的粒度是N个词而不是一个词,考虑了更长的匹配信息。
缺点:
- 没有考虑不同的词性在图像标注上所表达的信息重要性可能不同。
- 没有考虑同义词或相似表达的情况。
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
ROUGE是为自动生成摘要而设计的一套评测指标。它是一种纯粹基于召回率的相似度度量方法,具体是通过比较重叠的N个词中单词序列和单词对来实现的,主要考察图像标注的充分性和真实性。
METEOR(Metric for Evaluation of Translation with Explicit ORdering)
METEOR是针对机器翻译任务而提出的一个评测指标。METEOR通过三个不同的匹配模块(精确匹配模块、“porter stem”模块、基于WordNet的同义词模块)来支持同义词、词根和词缀之间的匹配。其次,METEOR不仅考虑了匹配精度,还在评测中引入了召回率。
同BLEU相比,METEOR的评分与人工注释在语句层面上具有更好的相关性,而BLEU则在语料库这一级别上与人工注释具有更好的相关性。
METEOR也存在一些问题:
- METEOR使用了一些超参数,这些超参数是依据数据集调出来的,而非学习得到的。
- METEOR只考虑了匹配最佳的那一个参考标注,不能充分利用数据集中提供多个参考标注信息。
- METEOR使用了WordNet,对于WordNet中没有包含的语言就无法使用METEOR进行评测。
CIDEr(Consensus-based Image Description Evaluation)
CIDEr 是专门为图像标注问题而设计的,这个指标将每个句子都看作一个文档,将其表示成“词频-逆文档频率(TF-IDF)”向量的形式。计算完每个 N-gram 词汇的 TF-IDF 权重后,CIDEr 会计算参考标注与模型生成标注的余弦相似度,以此来衡量图像标注的一致性。最后将所有不同长度 N-gram 的 CIDEr 得分相加,就得到了最终的 CIDEr 评分。
TF-IDF 提供了一种度量 N-gram 显著性的方法,将那些常常出现、但是对于视觉内容信息没有多大帮助的 N-gram 的重要性打折。
SPICE(Semantic Propositional Image Caption Evaluation)
SPICE 是用于图像标注任务的评测指标。SPICE 首先利用一个依赖关系解析器将待评价 的图像标注和参考标注解析成语法关系依赖树,然后用基于规则的方法把语法关系依赖树映射成情景图,而情景图又可以被表示成一个个包含了物体、属性和关系的元组,最后对两个情景图中的每一个元组进行匹配,把计算到的 F-Score 作为SPICE 得分。
同其他四种评测指标相比,SPICE 排除了由 N-gram 造成的重叠敏感问题的同时,更加直观和具有可解释性,但 SPICE 的评测中忽视了标注语句的流畅性。