Gemmaverse 开发者故事 | 阿里国际基于 Gemma 开放模型探索多模态应用

作者 / 开发者品牌和声誉营销部 Francesca Di Felice

阿里巴巴集团是一家全球化的科技公司,其目标简单而明确:让天下没有难做的生意。自 1999 年以来,该集团创建了一系列工具和基础设施来支持中小企业。如今,阿里国际运营着全球规模最大的零售商业业务之一。

🔗 阿里巴巴集团

https://www.alibabagroup.com/en-US/

阿里巴巴为其连接全球买家和供应商的国际电子商务平台构建了一系列多模态大模型 (MLLM)。这个名为 Ovis 的模型系列能够感知和理解视觉信息,允许用户输入图像或视频请求并获得文本输出结果。其性能最佳的模型之一 Ovis1.6-Gemma2-9B 是基于 Gemma 构建的。

🔗 Ovis1.6-Gemma2-9B

https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

挑战

阿里巴巴的开发者希望为公司的国际电子商务平台创建一个有效的多模态大模型,但在寻找一个能够胜任多种任务且易于集成的基础模型时遇到了困难。在对现有开放模型进行初步实验时,团队发现这些模型在多模态推理和文本生成等关键领域存在多种性能差距。

经过全面测试,Gemma 2 的指令调优 9B 参数模型 (gemma-2-9b-it) 展现出最佳的综合性能,具备卓越的指令遵循能力和强大的文本生成能力。它在数学和编程等语言任务方面的优势使其成为多模态模型的理想基础。然而,无缝集成视觉和文本嵌入又增加了任务的复杂度。团队需要创新,以确保模型能够在基于图像的产品发布等关键业务应用中高效运行。

Gemma 在通用语言任务上表现尤为出色,特别是在数学和编程方面。我们利用 Gemma 的语言能力来提升我们在多模态任务上的表现。

阿里巴巴高级算法专家陈庆国

△ Ovis 视觉和文本处理流程图

解决方案

使用 gemma-2-9b-it 作为 Ovis 的基础语言模型,为构建多模态架构奠定了坚实的基础,弥补了视觉和文本输入之间的差距。Ovis 采用独特的方法:首先,它将连续的视觉特征转换为概率性的视觉令牌 (Token)。然后,通过加权索引,Ovis 将这些令牌组装成视觉嵌入。在此基础上,Gemma 的 Transformer 架构将这些嵌入与文本输入集成,确保多模态数据无缝流动。

🔗 gemma-2-9b-it

https://huggingface.co/google/gemma-2-9b-it

Gemma 2 在数学和逻辑方面的优势显著提升了 Ovis 在推理和理解任务上的能力,使阿里巴巴团队能够将这一新模型部署到各种业务运营中。例如,阿里国际数字商业平台用户现在可以使用 Ovis 根据产品图像来识别产品类别和属性或添加标签。这大大减少了手动输入的需求,让用户能够更高效地创建商品详情。

Ovis 的功能还扩展到了其他使用场景,如检测文本与图像之间的一致性问题、评估图像质量以及生成结构化输出。这些功能彰显了 Ovis 的多功能性及其适应各种任务的能力。

△ 损失曲线:比较了 Ovis1.6-Gemma2-9B (蓝色) 与 Ovis 在另一个类似规模的大模型 (红色) 上的收敛性

影响

Ovis 显著改进了阿里国际数字商业平台上的产品生产工作流程,并在推理过程中展现出卓越的效率,为多模态 AI 设定了新的标准。自发布以来,Ovis 已在 GitHub、Hugging Face、Model Scope 和 OpenCompass 等平台上获得了广泛的认可和应用,甚至在 Hugging Face 首页获得推荐展示。

△ *在 L20 GPU 上部署时的平均表现;统计数据截至 2024 年 11 月 30 日。

未来计划

阿里巴巴计划优化并扩展 Ovis 系列以适应新的应用场景,同时与其他开发者和社区分享团队的研究成果和见解,推动创新。

扩展产品系列

阿里巴巴希望引入更多样化的新型 Ovis 模型,以满足更多业务需求,例如为资源有限的团队提供较小规模的模型。开发团队基于 gemma-2-27b 模型发布了 30B 参数版本,并且已经在为未来的迭代做准备。

🔗 30B 参数版本

https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-27B

新用例

基于社区反馈,阿里巴巴将改进 Ovis 系列的光学字符识别、视觉理解和通用多模态理解能力,为用户提供更多使用模型的方式。团队还计划利用模型出色的图像-文本理解能力,在 Ovis 中加入照片分析、健身指导和美容建议等功能。

知识共享

阿里巴巴致力于与更广泛的 AI 社区分享研究成果。团队希望推动多模态技术领域中研究人员和开发者之间的协作与创新,进一步巩固 Ovis 作为全球商业变革性工具的地位。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值