【提示学习论文】Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learner论文原理

CaFo:Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners(CVPR 2023)

  • 提出一个层叠的基础模型,结合了多种预训练模型的不同先验知识**(CLIP、DINO、DALL-E、GPT-3),并将它们串联**起来以提高少样本学习的性能
  • 工作方式:提示、生成、缓存
  • 首先,我们利用GPT-3生成文本输入,以提示具有丰富下游语言语义的CLIP
  • 然后,我们通过DALL-E生成合成图像,在不需要任何人力的情况下扩展少量的训练数据
  • 最后,我们引入了一个可学习的缓存模型来自适应地混合来自CLIP和DINO的预测
  • 通过这样的合作,CaFo可以充分释放不同预训练方法的潜力,并将它们统一起来,实现最先进的少弹分类

1 Introduction

在这里插入图片描述
在拥有丰富数据集的情况下,卷积神经网络和Transformer模型在各种视觉任务上取得了巨大成功。然而,在数据稀缺和资源有限的情况下,少样本学习也成为了一个研究热点。许多先前的工作在这一领域提出了各种方法,通过元学习、度量学习和数据增强等手段来增强模型的泛化能力。

最近,CLIP模型通过大规模语言-图像对的预训练展现出了良好的零样本迁移能力,为开放词汇的视觉识别提供了有利条件。随后的CoOp、CLIP-Adapter和Tip-Adapter进一步将其扩展为少样本分类,并在各种下游数据集上取得了优越的性能。

作者详细描述了每个模型的预训练目标以及它们在少样本学习中的作用。具体来说,作者通过三个步骤串联这些模型:

  • 提示,使用GPT-3生成文本提示,以
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值