多模态优秀工作详解,端到端的ALBEF视觉语言表示学习框架:将视觉和文本的特征在喂入多模态 Transformer 之前,先做对齐
原创
2024-07-31 11:27:37
171阅读
ALBEF:基于动量蒸馏的视觉语言表示学习
《Align before Fuse:Vision and Language Representation Learning with Momentum Distillation》
论文地址:https://arxiv.org/pdf/2107.07651.pdf相关博客:【自然语言处理】【多模态】多模态综述:视觉语言预训练模型【自然语言处理】【多模