摘要:近期,多模态生成模型领域取得的进展已实现逼真且与指令对齐的图像生成,然而,像GPT-4o-Image这样的领先系统仍属专有且无法公开获取。为普及此类能力,我们推出了ShareGPT-4o-Image数据集,这是首个包含4.5万条文本到图像数据和4.6万条文本与图像到图像数据的数据集,所有数据均利用GPT-4o的图像生成能力合成,旨在蒸馏其先进的图像生成能力。借助该数据集,我们开发了Janus-4o,这是一款多模态大型语言模型,具备文本到图像以及文本与图像到图像的生成能力。Janus-4o不仅相较于其前身Janus-Pro在文本到图像生成方面有了显著提升,还新增支持了文本与图像到图像的生成功能。值得注意的是,Janus-4o仅利用9.1万个合成样本,在配备8块A800 GPU的机器上训练6小时,便实现了从零开始的文本与图像到图像生成的出色性能。我们希望ShareGPT-4o-Image数据集和Janus-4o模型的发布,能够推动逼真且与指令对齐的图像生成领域的开放研究。Huggingface链接:Paper page,论文链接:2506.18095
研究背景和目的
研究背景:
近年来,多模态生成模型的发展取得了显著进展,特别是在图像生成领域,模型已经能够生成高度逼真且与指令对齐的图像。然而,这些先进的生成能力大多被掌握在少数专有模型中,如GPT-4o-Image,这些模型不对外开放,限制了广大研究者和开发者的使用。这种现象导致了技术壁垒,阻碍了多模态生成模型领域的广泛研究和应用。与此同时,开源社区对于高质量、可控性强的多模态生成模型的需求日益增长,特别是在文本到图像(Text-to-Image)和文本与图像到图像(Text-and-Image-to-Image)生成任务上。
研究目的:
本研究旨在解决上述问题,通过构建并开源一个高质量的多模态数据集ShareGPT-4o-Image,来推动多模态生成模型领域的发展。具体目标包括:
- 数据集构建:利用GPT-4o的图像生成能力,合成一个包含文本到图像和文本与图像到图像任务的数据集,以捕捉GPT-4o在图像生成方面的先进能力。
- 模型开发:基于ShareGPT-4o-Image数据集,开发一个名为Janus-4o的多模态大型语言模型,支持文本到图像和文本与图像到图像的生成任务。
- 性能提升:通过实验验证Janus-4o在文本到图像生成任务上的性能提升,并展示其在文本与图像到图像生成任务上的新能力。
- 开源共享:通过开源ShareGPT-4o-Image数据集和Janus-4o模型,促进多模态生成模型领域的开放研究,降低技术门槛,推动技术普及。
研究方法
1. 数据集构建方法:
- 数据生成:利用GPT-4o的图像生成能力,通过精心设计的提示(Prompts)生成45K文本到图像样本和46K文本与图像到图像样本。提示设计考虑了多样性、复杂性和可控性,以确保生成图像的质量和多样性。
- 数据筛选与后处理:对生成的图像进行人工筛选,去除低质量或不符合要求的样本。同时,对图像进行必要的后处理,如调整大小、格式转换等,以适应后续模型训练的需求。
2. 模型开发方法:
- 模型架构:基于Janus-Pro模型架构进行扩展,增加对文本与图像到图像生成任务的支持。模型采用自回归(Autoregressive)方式生成图像,通过联合训练文本到图像和文本与图像到图像任务,实现模型能力的共享与提升。
- 训练策略:采用两阶段训练策略,首先在大规模文本到图像数据集上进行预训练,然后在ShareGPT-4o-Image数据集上进行微调。微调过程中,采用随机掩码(Masking)策略增强模型的鲁棒性和生成能力。
- 评估指标:采用多种评估指标,包括自动评价指标(如FID、IS等)和人工评价,以全面评估模型在文本到图像和文本与图像到图像生成任务上的性能。
研究结果
1. 数据集质量:
ShareGPT-4o-Image数据集包含了高质量、多样化的文本到图像和文本与图像到图像样本,覆盖了广泛的视觉风格和语义内容。通过人工筛选和后处理,确保了数据集的高质量和可用性。
2. 模型性能:
- 文本到图像生成:Janus-4o在文本到图像生成任务上显著优于其前身Janus-Pro,在GenEval和DPG-Bench等基准测试上取得了更高的自动评价分数和人工评价偏好率。
- 文本与图像到图像生成:Janus-4o首次支持了文本与图像到图像的生成任务,并在ImgEdit-Bench等基准测试上取得了优异成绩,展示了其在图像编辑和修改方面的强大能力。
3. 训练效率:
Janus-4o仅利用91K合成样本,在配备8块A800 GPU的机器上训练6小时,便实现了从零开始的文本与图像到图像生成的出色性能。这表明ShareGPT-4o-Image数据集具有高效的数据利用效率和模型训练效率。
研究局限
1. 数据集规模:
尽管ShareGPT-4o-Image数据集在质量和多样性上表现优异,但其规模相对较小,可能限制了模型在某些复杂任务上的泛化能力。未来工作可以考虑进一步扩大数据集规模,以提高模型的鲁棒性和泛化性。
2. 模型复杂性:
Janus-4o模型虽然支持了文本到图像和文本与图像到图像的生成任务,但其模型架构和训练策略相对复杂,可能增加了模型部署和应用的难度。未来工作可以探索更简洁、高效的模型架构和训练策略。
3. 评估指标局限性:
当前采用的评估指标(如FID、IS等)虽然能够在一定程度上反映模型的生成质量,但仍存在局限性。例如,这些指标可能无法全面评估模型在语义一致性、细节表现等方面的能力。未来工作可以探索更全面、准确的评估指标。
未来研究方向
1. 扩大数据集规模:
未来工作可以考虑进一步扩大ShareGPT-4o-Image数据集的规模,增加更多样化的样本和更复杂的任务类型,以提高模型的鲁棒性和泛化性。同时,可以探索数据增强和合成技术,以进一步提高数据集的质量和多样性。
2. 简化模型架构:
针对Janus-4o模型架构和训练策略的复杂性,未来工作可以探索更简洁、高效的模型架构和训练策略。例如,可以采用更轻量级的模型架构、更高效的训练算法等,以降低模型部署和应用的难度。
3. 探索多模态交互:
当前的研究主要关注于文本到图像和文本与图像到图像的生成任务,未来工作可以进一步探索多模态交互技术,如语音到图像、视频生成等。这将有助于推动多模态生成模型在更广泛领域的应用和发展。
4. 加强评估指标研究:
针对当前评估指标的局限性,未来工作可以加强评估指标的研究和开发。例如,可以探索基于人类视觉感知的评估指标、基于语义一致性的评估指标等,以更全面、准确地评估模型的生成质量。
5. 推动开源与共享:
继续推动ShareGPT-4o-Image数据集和Janus-4o模型的开源与共享工作,促进多模态生成模型领域的开放研究。同时,可以建立社区交流平台,鼓励研究者分享经验、交流想法,共同推动多模态生成模型领域的发展。