在人工智能领域,多模态模型的突破性进展正在重新定义人机交互的边界。2025年6月15日,中国科学院计算技术研究所联合多家机构开源了 Stream-Omni——一款支持语言、视觉与语音无缝交互的多模态模型。其核心能力在于 语音与文本的层维度映射,使得模型在少量多模态数据下即可高效训练,并首次实现类似GPT-4o的“边听边看”实时语音交互体验。
Stream-Omni的核心优势
-
全模态组合交互能力
Stream-Omni支持 文本、图像、语音的任意组合输入与输出,并能生成高质量的文本或语音回复。例如:- 用户上传一张图片并口述问题:“这张照片中的建筑风格是什么?”
- 模型可同步分析图像内容与语音指令,生成文本答案并语音播报结果。
-
实时语音交互(边听边看)
与传统语音交互不同,Stream-Omni在语音输入过程中即可 同步输出中间文本结果。这一特性使其适用于需要即时反馈的场景,例如:- 语音助手:用户提问时,屏幕实时显示部分回答内容。