作者:seven_
在图像文本多模态分析任务中,大规模自监督预训练方法仍然是目前的主流方法,例如CLIP[1]和DALL-E[2]模型都是构建在自监督预训练语料库的基础之上。但是这些方法都隐含遵循一个假设,即假设当前图像与图像的短标题之间存在一一对应的关系,这种关系使得模型可以迅速的在文本和视觉两个空间中提取联合高层语义,但是也会对模型的扩展方面带来一定的局限性。
这里我们假设这样一个应用场景,我们给模型输入多张图像和多段描述文字(在很多情况下,单幅图像难以全面概括一个事件的起因,过程和结果),模型随后进行推理,生成一段精简的图像文字叙述。或者说我们直接给模型一段新闻报道,模型可以直接根据上下文信息为这段新闻报道进行配图,可以大大提高文案编辑的效率。这就需要模型可以接受不定长的图像和文本数据作为输入,另外更重要的是,其需要具有多重标签的大规模多模态数据集进行预训练。
本文基于这种新设定,引入了一个包含3100万篇文章、2200万张图片和100万个视频的大规模数据集,称为NewsStories,并引入了一种基于多实例学习(MIL)的方法来对该数据集进行训练。本文来自波士顿大学,MIT-IBM AI实验室和谷歌研究院,目前已被计算机视觉顶级会议ECCV2022接收。
论文链接:
https://arxiv.org/abs/2207.13061 项目主页:
https://github.com/NewsStoriesData/newsstories.github.io
一、引言
目前的文本图像模型大多都侧重于学习图像与一个或多个文字描述之间的一对一的对应关系,其实这种学习策略本质上是由现有常用的数据集决定的,例如MSCOCO和Flickr30K,这两个数据集中对每幅图像都设置了一个或多个短标题,而且这些短标题往往与图像具有很强的文字相关性,例如一个标题为“一架飞机正在空中飞行”的图像,如下图(a)所示。随着研究的深入,文字描述和图像之间多对多的关系也被考虑了进来,例如新闻领域(新闻文章、维基百科和博客等场景)中,经常会遇到多幅无序图像和不定长文本描述之间的多重对应关系,如下图(b)所示,对模型同时输入“欧盟旗帜”,“飞机”,“会议”和“准备疫苗的护士”四幅图像,模型可能会匹配到意义完全不同的多种文字描述,例如模型可能会推测出“欧盟成员国正在投票向接种疫苗的旅行者开放边境”,也可能会推测出“欧盟委员会强制要求飞机旅客接种疫苗”这两种不同的含义,这是因为在参与训练的新闻数据中,不同的事件报道中会出现相同的图像,这样得到的模型无法准确的对新闻类数据进行表征。
为了应对上述情况,本文作者提出了一种新的新闻视觉摘要场景,来对新闻数据中的文本和图像构建语义联系。如下图(c)所示,作者将其表述为检索任务的形式,先给定图像集,模型的目标是为一篇文章检索到最相关和最具说明性的图像集。该任务与前两种任务不同,它要求模型能够推理出一个大事件中多个图像和文本叙述之间的多对多对应关系,此外,其中涉及到的图像与出现的文本通常只有说明性的对应关系,无法进行简单的文字连接,这就避免了像图(b)中出现多种不同含义描述的情况。
作者先是收集了一个大规模的文本图像数据集NewsStories,该数据集中的每个故事(事件),都是通过对来自不同媒体渠道的报道文章进行聚类得到的。在技术选型方面,作者选择了目前最为先进的图像-文本对齐方法来对这一任务进行评估,此外,作者还引入了一种基于多实例学习(MIL)的方法进行对比实验,该方法可以尽可能的增强图像集和相关文本信息之间的互信息。作者先将这些方法在NewsStories数据集上进行预训练,然后将学习到的表征迁移到下游任务中,实验结果表明,这种方式可以显著提升图像-文本对齐模型(例如CLIP模型)的性能,具有较强的泛化性和实用性。
二、NewsStories数据集
为了满足模型学习上述多幅图像和多个不定长文本叙述之间的多重对应关系,本文作者从在线多媒体媒介中对数据进行收集,NewsStories数据集来源于从2018年10月到2021年5月期间的新闻文章和相关媒体链接,随后进行数据过滤和整合聚类。过滤后的NewsStories数据集包含了三种模态的数据:
- 新闻数据和元数据,包括新闻报道的标题和日期
- 图像数据
- 新闻视频及相关的音频
相比之前的存在的新闻数据集(如GoodNews、NYT800K和VisualNews),NewsStories具有以下三个主要特点:
- 是目前规模最大的数据集,并且包含了来自更广泛的新闻媒体渠道的数据。
- 与其他多模态数据集不同,NewsStories包含了几乎所有的模态:文本、图像和音视频。
- NewsStories的组织形式是“故事“形式,其将文本、图像和视频分组为故事,并提供了故事聚类标签,这不仅有助于模型更快的识别相关文章,同时可以为每个故事检索到多组对应图像。
上表展示了本文提出的NewsStories数据集与现有的新闻数据集的对比效果,与现有数据集相比,NewsStories的未过滤版本包含了大约28K的新闻媒体文章,这显著增加了数据集的语言多样性,此外其包含了超过2200万张图片和100万个视频,这也大大丰富了数据集的视频模态信息,数据集的整体规模应该是目前学术界中最为庞大的一个。
三、本文方法
本文工作的主要目标是探索使用不固定数量的图像集构成视觉摘要来描述新闻文章,其核心是实现较为稳定的多图多文本视觉表征。具体来说,给定一组包含多种信息的视觉图像集合,模型对其进行信息聚合和上下文表示学习,以便能够对故事或事件进行推理,而且不受文章中的文本类型和图像风格的影响,为了实现这一目标,作者将任务定义为检索与指定文章最相关的图像集,首先给定一组关联文章 和一组对应图像 组成的故事元组,模型的优化目标是最大化每篇文章 和整个图像集 之间的语义相似度。其中文本编码器 可以将整个文本序列 编码为
随后作者使用了几个现有的图像文本对齐方法,并对他们的操作形式及损失函数进行了对比,如下图所示,图(a)表示单图像对单文本的对齐,其通常使用InfoNCE损失和三元组损失进行优化,本文使用了常用的InfoNCE损失:
上图(b)展示了多图像与单文本的对齐方式,其中图像和文本分别由 和 进行编码, 和 分别表示得到的文本表示和图像表示。本文作者假设训练数据集合中的每个图像至少都与文章中的一个句子对应,这样就非常符合多实例学习框架的要求,如果大多数实例都来自同一个故事聚类,则将这些图像和句子实例标记为一个正包,否则标记为负包,如图(c)所示,作者先将整个文章拆分成多个单独的句子并进行编码 ,随后与图像集合
其中 , 和 分别是图像和文本的边缘分布以及它们的联合分布。此时,我们还没有给定文本和图像的真实标签,仅通过样本之间的相似度进行计算,因此作者对每个图像选择了一个最佳匹配的句子来生成伪标签,如上图(c)中的彩色箭头所示,但是这种方式可能会给优化过程带来很多噪声,尤其是当图像与文章本身呈弱相关时。为了缓解这个问题,作者进一步施加了一个文章级损失,从宏观层面拉近整个文章和图像集之间的语义距离,分别通过对文本和图像表示的均值池化来计算整片文章 和图像集
对于模型的具体实现,作者直接使用CLIP模型中的视觉和文本编码器进行初始化,并使用上述目标函数进行微调。
四、实验
在对模型进行评估时,作者主要使用了本文提出的NewsStories数据集和GoodNews数据集,前者我们已在前面小节进行了介绍,后者主要包含了来自纽约时报的大约25万篇新闻文章。主要在这两个数据集上进行了文章到图像集的检索评估。评价指标使用top-K的召回率(R@1、R@5、R@10),召回率越高代表模型效果越好。
下表展示了本文方法在NewsStories数据集的性能对比,在该实验设置中,每个图像集中包含的图像数量固定为5,可以看到,直接使用预训练的CLIP模型,无需微调就可以得到31.03%的R@1准确率。此外,使用单图像对单文本的对齐方法基本上无法对文本和图像之间的多重聚合关系进行表示。与目前常使用的Transformer模型对比,Transformer在该任务上仅比平均基线提高了1%,这表明仅靠自注意力机制仍然不足以捕获视觉和文本之间的宏观联系。本文提出的MIL-SIM相对于其他对齐方法达到了最大程度的性能提升。
下图展示了本文方法在NewsStories数据集上的检索可视化,左右两边分别表示容易样本和困难样本,输入一段查询文本(Query article),模型给出检测排名最高的三个图像集,从上到下进行排列显示,其中根据聚类ground-turth确定的真实图像集和错误图像集分别用绿色和红色框标注。在图(a)中,无论在正确图像集还是错误图像集中,模型均能够检索到与”火“有关的图像,尽管他们来自于不同的故事中。而在图(b)中,两个错误图像集中均缺失了查询文本中的关键信息”复活节彩蛋“。
五、总结
本文提出了一种具有挑战性的研究课题,即通过使用视觉摘要来对新闻数据进行描述和表征。这项任务与之前普通的文本图像对齐任务不同,其需要学习相关图像视频和文本之间的多对多说明性的对应关系。为了详细研究这个问题,作者引入了一个包含超过3100万篇新闻文章和2200万张图像的大规模多模态新闻数据集NewsStories。并使用了多种文本对齐方法在多对多对应关系方面的有效性进行了基准评估,也提出了一种较为合理的基于多实例学习的方法,可供学术界未来在这个方向上继续深入研究。
参考
[1] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. arXiv:2103.00020, 2021.
[2] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., and Sutskever, I. Zero-shot text-to-image generation. arXiv:2102.12092, 2021.
-The End-