一些收获:
1. 学到了 encoder 编码带有重叠的patches 然后传没有重叠的给llm
2. 直接用未裁剪的图片 效果不及重叠裁剪的
3. 带有坐标的标注数据
摘要:当前最先进的vlms仍为专有技术,性能最强的开源权重模型严重依赖专有vlms生成的合成数据,实质上是对闭源vlms的蒸馏复现。贡献:名为pixmo的全新数据集集合,包括:用于预训练的高细节图像描述数据集、用于微调的自由形式图像问答数据集、创新的2d指向数据集「2d指向数据集是一种专门用于训练vlm理解图像空间位置关系的新型标注数据,其核心是让模型学会将自然语言中的空间描述与图像中具体的2d坐标位置关联起来」,所有数据未使用外部vlm收集。
引言:
我们的成功源于:谨慎的模型设计 精心调优的训练流程 最关键的是全新高质量数据集PixMo(Molmo的像素)。
架构:
预处理模块:将输入图像转换为多尺度、多裁剪区域多图像
vit图像编码器:独立计算每个patch的特征
视觉语言连接器:将patch特征池化并投影到llm的嵌入空间
仅解码器llm
----
基于此模板,我们通过选择不同视觉编码器和LLM构建模型家族,保持训练数据和方案的一致性(仅学习率调整)。主要组件选择:
-
视觉编码器:优先使用OpenAI的ViT-L/14 336px CLIP模型(因初期实验表现优异),但SigLIP[130]和全开源的MetaCLIP[118]也可达到类似效果(见第6节);
-
LLM:涵盖不同规模和开放等级:
-
全开源:OLMo-7B-1024-preview、OLMoE-1B-7B(最高效模型);
-
开源权重:Qwen2 7B[120]、Qwen2 72B(最佳性能模型)。
-
重叠patch:vit计算重叠的编码 但是传给llm是只取非重叠区域的