Gemmaverse 开发者故事 | 阿里国际基于 Gemma 开放模型探索多模态应用

Android 开发者

于 2025-06-12 17:31:22 发布

阅读量103

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能大数据

原文链接：https://mp.weixin.qq.com/s?__biz=Mzk0NDIwMTExNw==&mid=2247596677&idx=1&sn=220924d4620c66d6a22f20a46dace1ed&chksm=c2b0359b21af689d8d0b719d34ff0864faa2a5104bb5819a2772681d1aea6672c2e71c630b48&scene=126&sessionid=0

作者 / 开发者品牌和声誉营销部 Francesca Di Felice

阿里巴巴集团是一家全球化的科技公司，其目标简单而明确：让天下没有难做的生意。自 1999 年以来，该集团创建了一系列工具和基础设施来支持中小企业。如今，阿里国际运营着全球规模最大的零售商业业务之一。

🔗 阿里巴巴集团

https://www.alibabagroup.com/en-US/

阿里巴巴为其连接全球买家和供应商的国际电子商务平台构建了一系列多模态大模型 (MLLM)。这个名为 Ovis 的模型系列能够感知和理解视觉信息，允许用户输入图像或视频请求并获得文本输出结果。其性能最佳的模型之一 Ovis1.6-Gemma2-9B 是基于 Gemma 构建的。

🔗 Ovis1.6-Gemma2-9B

https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

挑战

阿里巴巴的开发者希望为公司的国际电子商务平台创建一个有效的多模态大模型，但在寻找一个能够胜任多种任务且易于集成的基础模型时遇到了困难。在对现有开放模型进行初步实验时，团队发现这些模型在多模态推理和文本生成等关键领域存在多种性能差距。

经过全面测试，Gemma 2 的指令调优 9B 参数模型 (gemma-2-9b-it) 展现出最佳的综合性能，具备卓越的指令遵循能力和强大的文本生成能力。它在数学和编程等语言任务方面的优势使其成为多模态模型的理想基础。然而，无缝集成视觉和文本嵌入又增加了任务的复杂度。团队需要创新，以确保模型能够在基于图像的产品发布等关键业务应用中高效运行。

Gemma 在通用语言任务上表现尤为出色，特别是在数学和编程方面。我们利用 Gemma 的语言能力来提升我们在多模态任务上的表现。
阿里巴巴高级算法专家陈庆国

△ Ovis 视觉和文本处理流程图

解决方案

使用 gemma-2-9b-it 作为 Ovis 的基础语言模型，为构建多模态架构奠定了坚实的基础，弥补了视觉和文本输入之间的差距。Ovis 采用独特的方法：首先，它将连续的视觉特征转换为概率性的视觉令牌 (Token)。然后，通过加权索引，Ovis 将这些令牌组装成视觉嵌入。在此基础上，Gemma 的 Transformer 架构将这些嵌入与文本输入集成，确保多模态数据无缝流动。

🔗 gemma-2-9b-it

https://huggingface.co/google/gemma-2-9b-it

Gemma 2 在数学和逻辑方面的优势显著提升了 Ovis 在推理和理解任务上的能力，使阿里巴巴团队能够将这一新模型部署到各种业务运营中。例如，阿里国际数字商业平台用户现在可以使用 Ovis 根据产品图像来识别产品类别和属性或添加标签。这大大减少了手动输入的需求，让用户能够更高效地创建商品详情。

Ovis 的功能还扩展到了其他使用场景，如检测文本与图像之间的一致性问题、评估图像质量以及生成结构化输出。这些功能彰显了 Ovis 的多功能性及其适应各种任务的能力。

△ 损失曲线：比较了 Ovis1.6-Gemma2-9B (蓝色) 与 Ovis 在另一个类似规模的大模型 (红色) 上的收敛性

影响

Ovis 显著改进了阿里国际数字商业平台上的产品生产工作流程，并在推理过程中展现出卓越的效率，为多模态 AI 设定了新的标准。自发布以来，Ovis 已在 GitHub、Hugging Face、Model Scope 和 OpenCompass 等平台上获得了广泛的认可和应用，甚至在 Hugging Face 首页获得推荐展示。