利用模态逼近生成0.1M可训练参数来实现多模态参数高效调谐,利用仅0.04%的预训练模型参数来探索低固有维数。多模态基础大模型的参数高效微调新方法,性能优于LoRA

文章地址:https://arxiv.org/pdf/2305.08381.pdf

项目地址:https://github.com/WillDreamer/Aurora

现状: 参数高效迁移学习在人工智能的各个子领域获得了巨大的普及。其核心是使模型仅使用一小组参数来适应下游任务。最近,研究人员在多模态任务中利用了这种成熟的技术,并取得了有希望的结果,但是有两个关键问题仍未解决:

  • 如何进一步降低轻量化设计的复杂性,
  • 如何在极低参数下促进模态之间的对齐。

解决:提出了一个优雅的跨模式转移的提示框架(Aurora)来克服这些挑战。

  • 利用模态逼近生成0.1M可训练参数来实现多模态参数高效调谐,利用仅0.04%的预训练模型参数来探索低固有维数。
  • 提出极少参数场景下的信息上下文增强和门控查询转换模块为了更好地进行模态对齐。

对六个跨模式基准的全面评估表明,它不仅优于最先进的技术,甚至优于完全微调方法。

方法

背景

Aurora_模态

Aurora_文本检索_02

2)PETL的轻量级设计

Aurora_人工智能_03

图2 整体框架

Aurora_文本检索_04

Aurora_文本检索_05

3)模态对齐设计

与直接插入可学习网络来显式实现跨模态对齐的现有方法不同,本文提出了两个有效的模块来对齐具有少量可训练参数的不同模态。因此,加上上面的模态近似,可以实现一个优雅的跨模态转移提示框架,它既轻量又高性能。

信息上下文增强 为了更好地进行模态对齐,本文的目标是在交叉注意模块之后提供可以激活融合功能的提示。受上下文学习(in - context Learning)发展的启发,演示模板对于提示是非常重要的。最直观的方法是对齐图像-文本对,以获得更多的跨模态上下文信息。然而,即使有相关的图像区域,仍然可能有不止一种方法来描述这些区域。有些文本可以准确地总结图像的内容,而其他文本则可能没有。在没有先验匹配文本信息的情况下,本文决定引入上下文增强模块来提供可能文本信息的覆盖。

Aurora_人工智能_06

实验结果

Aurora_模态_07

可以观察到,Aurora(R=64)在仅使用其0.5%的参数的情况下,获得了与最先进的frozen backbone方法相当的结果。将等级提高到128时,Aurora可以进一步提升性能,超过所有frozen backbone方法,甚至超过一些具有更少可训练参数的完全微调方法。

Aurora_提示框_08

为了进一步验证Aurora在视频文本检索领域的性能,在两个视频数据集MSRVTT和DiDemo上进行了实验,实验结果如表2所示,Aurora只需要0.1M左右的可训练参数,就可以直接获得比所有frozen backbone方法更好的性能,并且优于大多数全微调方法。这表明我们的Aurora在视频文本场景下具有出色的理解能力,即使可训练的参数相对较少。

Aurora_模态_09

与检索任务不同,VQA任务需要验证模型的多模态生成能力。Aurora共享多模态编码器和多模态解码器的可训练参数,以进一步减少参数的数量。从结果来看,Aurora优于UniAdapter和所有的全微调方法,这表明Aurora对于下游生成任务具有强大的迁移能力。

Aurora_模态_10

表4概述了Aurora在各种zero-shot多模态任务中的性能。很明显,在视觉语言预训练中,Aurora在需要最少的可训练参数的情况下实现了最高的zero-shot性能,这代表了更强大的通用理解能力。