ClipCap 模型只用 CLIP 的 ViT encoder 输出的[CLS] token 对应的特征再投影后的特征(512 维,与文本特征一致)来生成 caption。
目前用 transformer(6-layer+6-heads+512-hidden_dim) + 位置嵌入 直接预测(MSE loss) [CLS] token 对应的特征的投影),无数据增强。
把预测特征丢进 ClipCap 预测(没有 finetune),结果见链接(测试集前 100 张图):
效果比起 Ridge Regression 好很多。
metric 代填ing……