Molmo and PixMo论文精读

一些收获:

1. 学到了 encoder 编码带有重叠的patches 然后传没有重叠的给llm

2. 直接用未裁剪的图片 效果不及重叠裁剪的

3. 带有坐标的标注数据


摘要:当前最先进的vlms仍为专有技术,性能最强的开源权重模型严重依赖专有vlms生成的合成数据,实质上是对闭源vlms的蒸馏复现。贡献:名为pixmo的全新数据集集合,包括:用于预训练的高细节图像描述数据集、用于微调的自由形式图像问答数据集、创新的2d指向数据集「2d指向数据集是一种专门用于训练vlm理解图像空间位置关系的新型标注数据,其核心是让模型学会将自然语言中的空间描述与图像中具体的2d坐标位置关联起来」,所有数据未使用外部vlm收集。

引言:

我们的成功源于:谨慎的模型设计 精心调优的训练流程 最关键的是全新高质量数据集PixMo(Molmo的像素)。

架构:

预处理模块:将输入图像转换为多尺度、多裁剪区域多图像

vit图像编码器:独立计算每个patch的特征

视觉语言连接器:将patch特征池化并投影到llm的嵌入空间

仅解码器llm

----

基于此模板,我们通过选择不同视觉编码器和LLM构建模型家族,保持训练数据和方案的一致性(仅学习率调整)。主要组件选择:

  • 视觉编码器:优先使用OpenAI的ViT-L/14 336px CLIP模型(因初期实验表现优异),但SigLIP[130]和全开源的MetaCLIP[118]也可达到类似效果(见第6节);

  • LLM:涵盖不同规模和开放等级:

    • 全开源:OLMo-7B-1024-preview、OLMoE-1B-7B(最高效模型);

    • 开源权重:Qwen2 7B[120]、Qwen2 72B(最佳性能模型)。

重叠patch:vit计算重叠的编码 但是传给llm是只取非重叠区域的

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值