ClipCap 模型只用 CLIP 的 ViT encoder 输出的[CLS] token 对应的特征再投影后的特征(512 维,与文本特征一致)来生成 caption。

目前用 transformer(6-layer+6-heads+512-hidden_dim) + 位置嵌入 直接预测(MSE loss) [CLS] token 对应的特征的投影),无数据增强。

把预测特征丢进 ClipCap 预测(没有 finetune),结果见链接(测试集前 100 张图):

效果比起 Ridge Regression 好很多。

metric 代填ing……