Stream-Omni：中国科学院开源的类GPT-4o多模态模型，实现“边听边看”的语音交互革命

花生糖@

于 2025-07-21 06:00:00 发布

阅读量422

点赞数 7

CC 4.0 BY-SA版权

分类专栏： AIGC学习资料库文章标签： Stream-Omni AI交互 IoT AR VR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012842807/article/details/149349647

AIGC学习资料库专栏收录该内容

885 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

在人工智能领域，多模态模型的突破性进展正在重新定义人机交互的边界。2025年6月15日，中国科学院计算技术研究所联合多家机构开源了 Stream-Omni——一款支持语言、视觉与语音无缝交互的多模态模型。其核心能力在于 语音与文本的层维度映射，使得模型在少量多模态数据下即可高效训练，并首次实现类似GPT-4o的“边听边看”实时语音交互体验。

Stream-Omni的核心优势

全模态组合交互能力
Stream-Omni支持 文本、图像、语音的任意组合输入与输出，并能生成高质量的文本或语音回复。例如：
- 用户上传一张图片并口述问题：“这张照片中的建筑风格是什么？”
- 模型可同步分析图像内容与语音指令，生成文本答案并语音播报结果。
实时语音交互（边听边看）
与传统语音交互不同，Stream-Omni在语音输入过程中即可 同步输出中间文本结果。这一特性使其适用于需要即时反馈的场景，例如：
- 语音助手：用户提问时，屏幕实时显示部分回答内容。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

花生糖@ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。