文章目录
MaPLe: Multi-modal Prompt Learning 多模式提示学习
文章介绍
- 这篇文章于2023年发表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,Fahad Shahbaz Khan。
- 研究发现Clip的问题:在单个分支(语言或视觉)中使用prompt来调整表示是次优的,它不能在下游任务上灵活地动态调整两个表示空间。
- 作者提出了针对视觉和语言分支的多模态提示学习(MaPLe),以改善视觉和语言表征之间的一致性。
- 与CoCoOp方法相比更好。
动机
作者认为,Clip中只有文本编码器学习prompt,不足以对图像编码器所需的适应进行建模,因此着手基于多模态提示学习(MaPLe)来充分微调文本和图像编码器表示。
MaPLe:Multi-modal Prompt Learning 模型结构
- 这是第一个用于微调CLIP的多模式提示方法。
- 多模态提示是在视觉和语言分支的多个转换块中学习的,以逐步学习两种模态的协同行为。
- 提出了耦合函数,将文本和图像编码器中的提示学习联系起来,作为两种模式之间的桥梁,允许梯度的相互传播,以促进协同作用。
- 在视觉和语言分支的前 J J J 层( J J J < K K K )引入 learnable token。
text encoder | 文本编码器 | image encoder | 图像编码器 |
---|---|---|---|
W i W_i Wi | word embeddings | E i E_i Ei | image embeddings |
L i L_i Li | 某层transformer | V i V_i Vi | 某层transformer |
P i P_i Pi | 提示 | P i P_i Pi | 提示 |
c i c_i ci | class(CLS) tokens |
1、Deep Language Prompting 深度语言提示
-
作者在 text encoder 的前 J J J 层各引入了 b b b 个learnable tokens : { P i ∈ R d l {P_i \in \mathbb{R}}^{d_{l}} Pi∈Rdl} i = 1 b _{i=1}^b i=1b。
-
输入: [ P 1 , P 2 , … , P b , W 0 ] [P_1, P_2, \ldots , P_b, W_0] [P1,P