Molmo and PixMo论文精读

LiXiang like coding吗

于 2025-06-19 20:38:21 发布

阅读量186

点赞数 6

CC 4.0 BY-SA版权

文章标签：计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lx741602698/article/details/148761477

一些收获：

1. 学到了 encoder 编码带有重叠的patches 然后传没有重叠的给llm

2. 直接用未裁剪的图片效果不及重叠裁剪的

3. 带有坐标的标注数据

摘要：当前最先进的vlms仍为专有技术，性能最强的开源权重模型严重依赖专有vlms生成的合成数据，实质上是对闭源vlms的蒸馏复现。贡献：名为pixmo的全新数据集集合，包括：用于预训练的高细节图像描述数据集、用于微调的自由形式图像问答数据集、创新的2d指向数据集「2d指向数据集是一种专门用于训练vlm理解图像空间位置关系的新型标注数据，其核心是让模型学会将自然语言中的空间描述与图像中具体的2d坐标位置关联起来」，所有数据未使用外部vlm收集。

引言：

我们的成功源于：谨慎的模型设计精心调优的训练流程最关键的是全新高质量数据集PixMo（Molmo的像素）。

架构：

预处理模块：将输入图像转换为多尺度、多裁剪区域多图像

vit图像编码器：独立计算每个patch的特征

视觉语言连接器：将patch特征池化并投影到llm的嵌入空间

仅解码器llm

----

基于此模板，我们通过选择不同视觉编码器和LLM构建模型家族，保持训练数据和方案的一致性（仅学习率调整）。主要组件选择：

视觉编码器：优先使用OpenAI的ViT-L/14 336px CLIP模型（因初期实验表现优异），但SigLIP[130]和全开源的MetaCLIP[118]也可达到类似效果（见第6节）；
LLM：涵盖不同规模和开放等级：
- 全开源：OLMo-7B-1024-preview、OLMoE-1B-7B（最高效模型）；
- 开源权重：Qwen2 7B[120]、Qwen2 72B（最佳性能模型）。

重叠patch：vit计算重叠的编码但是传给llm是只取非重叠区域的

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。