【AI论文】ShareGPT-4o-Image：使多模态模型与GPT-4o级图像生成能力对齐-CSDN博客

本文链接：https://blog.csdn.net/m0_66899341/article/details/149123597

摘要：近期，多模态生成模型领域取得的进展已实现逼真且与指令对齐的图像生成，然而，像GPT-4o-Image这样的领先系统仍属专有且无法公开获取。为普及此类能力，我们推出了ShareGPT-4o-Image数据集，这是首个包含4.5万条文本到图像数据和4.6万条文本与图像到图像数据的数据集，所有数据均利用GPT-4o的图像生成能力合成，旨在蒸馏其先进的图像生成能力。借助该数据集，我们开发了Janus-4o，这是一款多模态大型语言模型，具备文本到图像以及文本与图像到图像的生成能力。Janus-4o不仅相较于其前身Janus-Pro在文本到图像生成方面有了显著提升，还新增支持了文本与图像到图像的生成功能。值得注意的是，Janus-4o仅利用9.1万个合成样本，在配备8块A800 GPU的机器上训练6小时，便实现了从零开始的文本与图像到图像生成的出色性能。我们希望ShareGPT-4o-Image数据集和Janus-4o模型的发布，能够推动逼真且与指令对齐的图像生成领域的开放研究。Huggingface链接：Paper page，论文链接：2506.18095

研究背景和目的

研究背景：

近年来，多模态生成模型的发展取得了显著进展，特别是在图像生成领域，模型已经能够生成高度逼真且与指令对齐的图像。然而，这些先进的生成能力大多被掌握在少数专有模型中，如GPT-4o-Image，这些模型不对外开放，限制了广大研究者和开发者的使用。这种现象导致了技术壁垒，阻碍了多模态生成模型领域的广泛研究和应用。与此同时，开源社区对于高质量、可控性强的多模态生成模型的需求日益增长，特别是在文本到图像（Text-to-Image）和文本与图像到图像（Text-and-Image-to-Image）生成任务上。

研究目的：

本研究旨在解决上述问题，通过构建并开源一个高质量的多模态数据集ShareGPT-4o-Image，来推动多模态生成模型领域的发展。具体目标包括：

数据集构建：利用GPT-4o的图像生成能力，合成一个包含文本到图像和文本与图像到图像任务的数据集，以捕捉GPT-4o在图像生成方面的先进能力。
模型开发：基于ShareGPT-4o-Image数据集，开发一个名为Janus-4o的多模态大型语言模型，支持文本到图像和文本与图像到图像的生成任务。
性能提升：通过实验验证Janus-4o在文本到图像生成任务上的性能提升，并展示其在文本与图像到图像生成任务上的新能力。
开源共享：通过开源ShareGPT-4o-Image数据集和Janus-4o模型，促进多模态生成模型领域的开放研究，降低技术门槛，推动技术普及。

研究方法

1. 数据集构建方法：

数据生成：利用GPT-4o的图像生成能力，通过精心设计的提示（Prompts）生成45K文本到图像样本和46K文本与图像到图像样本。提示设计考虑了多样性、复杂性和可控性，以确保生成图像的质量和多样性。
数据筛选与后处理：对生成的图像进行人工筛选，去除低质量或不符合要求的样本。同时，对图像进行必要的后处理，如调整大小、格式转换等，以适应后续模型训练的需求。

2. 模型开发方法：

模型架构：基于Janus-Pro模型架构进行扩展，增加对文本与图像到图像生成任务的支持。模型采用自回归（Autoregressive）方式生成图像，通过联合训练文本到图像和文本与图像到图像任务，实现模型能力的共享与提升。
训练策略：采用两阶段训练策略，首先在大规模文本到图像数据集上进行预训练，然后在ShareGPT-4o-Image数据集上进行微调。微调过程中，采用随机掩码（Masking）策略增强模型的鲁棒性和生成能力。
评估指标：采用多种评估指标，包括自动评价指标（如FID、IS等）和人工评价，以全面评估模型在文本到图像和文本与图像到图像生成任务上的性能。

研究结果

1. 数据集质量：

ShareGPT-4o-Image数据集包含了高质量、多样化的文本到图像和文本与图像到图像样本，覆盖了广泛的视觉风格和语义内容。通过人工筛选和后处理，确保了数据集的高质量和可用性。

2. 模型性能：

文本到图像生成：Janus-4o在文本到图像生成任务上显著优于其前身Janus-Pro，在GenEval和DPG-Bench等基准测试上取得了更高的自动评价分数和人工评价偏好率。
文本与图像到图像生成：Janus-4o首次支持了文本与图像到图像的生成任务，并在ImgEdit-Bench等基准测试上取得了优异成绩，展示了其在图像编辑和修改方面的强大能力。

3. 训练效率：

Janus-4o仅利用91K合成样本，在配备8块A800 GPU的机器上训练6小时，便实现了从零开始的文本与图像到图像生成的出色性能。这表明ShareGPT-4o-Image数据集具有高效的数据利用效率和模型训练效率。