这里写自定义目录标题
CaFo:Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners(CVPR 2023)
- 提出一个层叠的基础模型,结合了多种预训练模型的不同先验知识**(CLIP、DINO、DALL-E、GPT-3),并将它们串联**起来以提高少样本学习的性能
- 工作方式:提示、生成、缓存
- 首先,我们利用GPT-3生成文本输入,以提示具有丰富下游语言语义的CLIP
- 然后,我们通过DALL-E生成合成图像,在不需要任何人力的情况下扩展少量的训练数据
- 最后,我们引入了一个可学习的缓存模型来自适应地混合来自CLIP和DINO的预测
- 通过这样的合作,CaFo可以充分释放不同预训练方法的潜力,并将它们统一起来,实现最先进的少弹分类
1 Introduction
在拥有丰富数据集的情况下,卷积神经网络和Transformer模型在各种视觉任务上取得了巨大成功。然而,在数据稀缺和资源有限的情况下,少样本学习也成为了一个研究热点。许多先前的工作在这一领域提出了各种方法,通过元学习、度量学习和数据增强等手段来增强模型的泛化能力。
最近,CLIP模型通过大规模语言-图像对的预训练展现出了良好的零样本迁移能力,为开放词汇的视觉识别提供了有利条件。随后的CoOp、CLIP-Adapter和Tip-Adapter进一步将其扩展为少样本分类,并在各种下游数据集上取得了优越的性能。
作者详细描述了每个模型的预训练目标以及它们在少样本学习中的作用。具体来说,作者通过三个步骤串联这些模型:
- 提示,使用GPT-3生成文本提示,以