【提示学习论文】Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learner论文原理

一个很菜的小猪

于 2024-03-29 22:05:56 发布

阅读量1k

点赞数 15

CC 4.0 BY-SA版权

分类专栏：提示学习文章标签：学习 prompt 人工智能语言模型计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51293984/article/details/137104701

这里写自定义目录标题

CaFo：Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners（CVPR 2023）
1 Introduction
2 Related work
3 Cascade of Foundation Models
4 Experiments
5 Conclusion

CaFo：Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners（CVPR 2023）

提出一个层叠的基础模型，结合了多种预训练模型的不同先验知识**（CLIP、DINO、DALL-E、GPT-3），并将它们串联**起来以提高少样本学习的性能
工作方式：提示、生成、缓存
首先，我们利用GPT-3生成文本输入，以提示具有丰富下游语言语义的CLIP
然后，我们通过DALL-E生成合成图像，在不需要任何人力的情况下扩展少量的训练数据
最后，我们引入了一个可学习的缓存模型来自适应地混合来自CLIP和DINO的预测
通过这样的合作，CaFo可以充分释放不同预训练方法的潜力，并将它们统一起来，实现最先进的少弹分类

1 Introduction

在这里插入图片描述
在拥有丰富数据集的情况下，卷积神经网络和Transformer模型在各种视觉任务上取得了巨大成功。然而，在数据稀缺和资源有限的情况下，少样本学习也成为了一个研究热点。许多先前的工作在这一领域提出了各种方法，通过元学习、度量学习和数据增强等手段来增强模型的泛化能力。

最近，CLIP模型通过大规模语言-图像对的预训练展现出了良好的零样本迁移能力，为开放词汇的视觉识别提供了有利条件。随后的CoOp、CLIP-Adapter和Tip-Adapter进一步将其扩展为少样本分类，并在各种下游数据集上取得了优越的性能。

作者详细描述了每个模型的预训练目标以及它们在少样本学习中的作用。具体来说，作者通过三个步骤串联这些模型：

提示，使用GPT-3生成文本提示，以

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。