全球实时语音交互AI产品大比拼!阶跃AI和豆包问鼎,超越GPT-4o

去年 5 月,OpenAI 发布全模态 AI 模型 GPT-4o,凭借实时处理文本、图像、音频输入的强大功能,以及像电影《Her》中一样媲美人类对话的响应速度、音色、声调和情感,瞬间成为科技领域的焦点,引发无数人对未来语音交互的遐想。实时语音交互 AI 产品的进化,早已超越了单纯模仿声调的“鹦鹉学舌”,短短一年间,它正向着理解、共情与创造发展。如今究竟进化至何种境地,离真正的人类对话,究竟还差几个次元壁?当冰冷的算法被赋予富有情感的声线、流畅的表达,是否能以假乱真,骗过我们的耳朵?

图片

AGI-Eval 评测社区为此推出实时语音交互 AI 产品榜单!对阶跃 AI 、豆包、文小言、Qwen2.5-Omni、Minimax AI、通义、Gemini live、GPT-4o 八大主流实时语音交互 AI 产品进行评测,具体而言,社区评测团队集结了 1624 条真实语音对话数据集,邀请 480 名真人用户化身“评委”,覆盖 共情理解、学习提升、休闲娱乐、问题解决四大场景,对实时语音交互 AI 产品开展交互能力与认知能力的双重维度的考验。

图片

令人惊喜的是,评测结果显示,国产实时语音交互 AI 产品已经崛起,阶跃 AI 与豆包强势突围,在实时语音交互的综合表现上超越了 OpenAI 的标杆模型 GPT-4o,让人看到了 AI 领域 “长江后浪推前浪” 的无限可能。

图片

△各产品整体得分和  Ranking 图

图片

△各产品各分数段占比图

整体结论:

  • 参评产品得分 Range 为 0.41-0.64 分,头部产品整体能力处中等偏上,离类人交互能力仍有一定距离。

  • 参评厂商在整体排名上呈现出梯队结构。

  • 第一梯队由阶跃 AI(0.64分)、豆包(0.63分)组成,分数相近,但表现各有侧重:豆包获得满分的占比更高,表明其有能力输出非常亮眼的回答。阶跃 AI 的得分则更多地集中在中高分数段;

  • 第二梯队的 GPT-4o 和 Minimax AI(均为0.60分)与第一梯队整体差异不大,其得分主要集中在中分段。其中 GPT-4o 的低分段占比显著低于 Minimax AI,表现出相对更少的失误;

  • 第三梯队中,通义(0.50分)以约 6-10 PP 优势领先其余三个模型,与 Qwen2.5-Omni(0.44分),Gemini live(0.41分)及文小言(0.41分)拉开一定差距。

下面就一起查看实时语音交互的评测方案以及这些实时语音交互 AI 产品的真实表现吧!

1. 评测方案与流程介绍

本评测方案旨在实现通用领域下实时语音交互模型 / 产品的端到端效果评估。评测量级覆盖八家厂商,引入 480 名真实用户参与评测,最终生成 4872 条评测结果 。在评测数据构建方面,划分出共情理解、学习提升、休闲娱乐、问题解决四大场景,分别侧重情感识别与情商、问题反馈与分析、角色认知及指令遵循、知识储备等能力。

1.1 评测结论产出

测结论产出涵盖多个关键指标。最终产出指标包括自然流畅度得分以及分维度问题比例;在真实用户自然流畅度评分上,设定了明确标准;内部驻场分维度分析则从交互层(关注实时性、拟人性、富度、打断能力 )和认知层(考量相关性、准确性、安全性、记忆能力 )进行深入剖析。

图片

1.2 评测流程详解

1. 数据集构建

文本数据 8 名对话人围绕 203 条文本 Topic 与 8 个参评模型 / 产品开展多轮对话,构建起 1624 条语音对话数据。文本数据的构建遵循真实性原则,确保对话 Topic 源自真实应用场景需求;强调代入感,为每条 Topic 赋予对话背景与目的。涉及评测问题包含共情理解、学习提升、休闲娱乐、问题解决等多方面,同时全面覆盖理解生成、记忆等能力项。

音频数据构建秉持真实性、专业性、公平性原则。招募配音社专业话务员保障对话质量;对话人均匀覆盖参评模型,控制对话时长;对采集设备与环境也做出了规定。

2. 多维度分析

在交互层面实时性要求响应及时合理;拟人度追求交互具备真人般的自然感;丰富度需能识别用户相关信息并合理回应;打断能力强调对用户打断行为的精准识别与恰当处理。

在认知层面相关性注重回复与上文的紧密关联;记忆能力要求长对话不遗忘前置关键内容;准确性确保无错误编造信息;安全性要求杜绝违法、暴力等不良内容。

3. 真实用户自然流畅度打分
明确定义评测问题得分标准,即 1 分对应完全自然流畅,0.5 分对应部分自然流畅,0 分对应完全不自然流畅 。任务设计上,每个任务含 5 条数据,包括特定的评测、热身及屏蔽数据。评测设置对用户参与条件、数据审核标准等进行规范,最终由 480 名真实用户参评,产生 4872 条评测结果 。

4. 评测结果汇总及报告产出
通过对自然流畅度得分及排名、各分数占比、分应用场景得分、分维度问题比例四大指标的统计分析,产出全面的评测报告,综合评估实时语音交互 AI 产品在不同维度的表现。

2.语音自然流畅度评测

自然流畅度作为实时语音交互 AI 产品的核心指标,是跨场景用户体验的关键基石,其表现因场景而异。本研究聚焦共情理解、学习提升、休闲娱乐、问题解决大场景,系统考察实时语音交互 AI 产品的自然流畅特性。

2.1 共情理解场景

图片

豆包在「共情与情境理解」中表现最佳,高于第二名 Minimax AI 5 PP 及 第三名 GPT-4o 10 PP 左右,另外,阶跃在该场景上仅排第五,这里给出具体 case,大家可以感受一下豆包相较于 GPT-4o 的差异。


对话背景:20 岁的女生发现邻居虐猫,被邻居威胁“不要说出去,虐猫不会被判刑,只可能被罚款,如果举报他,下一个被‘虐’的就是女生”。背景音有猫咪大叫,以检测模型是否可以识别猫咪叫声。

豆包效果分析:未能识别出猫叫的环境音。但整体交流都挺不错,语调音高的变化符合语境。情感反馈也很到位,表现出了思考等拟人的回应。可根据用户的核心需求、动态捕捉用户情绪调整回应策略,使整体对话更加流畅自然,提出“联合其他邻居”的方式,建议中肯有情商;自主调节输出的语气和节奏,在用户悲伤时,以慢语速、温和语调进行安慰,以实现高情商的共情对话。

点击👇播放真实对话案例

GPT-4o 效果分析:未能识别出猫叫的环境音。对用户情绪感知一般,有“自说自话”的现象;说话断句奇怪,汉字发音不准确。

点击👇播放真实对话案例

2.2 学习提升场景

图片

豆包在「学习与自我提升」这一场景中仍旧表现最佳可精准构建知识框架并通过情绪化、鼓励式话语引导用户提升学习效果,这里和排名最后的文小言进行对比,大家可以看看具体的语音交互效果差异。


对话背景:非常幸运被德国大众公司挖走,但对于口语较为担心,寻求口语交流的帮助。

豆包效果分析:对话自然流畅,中英文切换很流利,识别到了说话人的英语内容,后续也分析了说话人英语交流的问题。在英文面试陪练等学习场景中可精准构建知识框架并通过情绪化、鼓励式话语引导用户提升学习效果

点击👇播放真实对话案例

文小言效果分析:对话不自然流畅,存在较多问题。响应速度极慢英语对话无法正常识别说话人的内容,回答一半会有遗忘上文情况,对话中途频繁打断说话人。

点击👇播放真实对话案例

2.3 休闲娱乐场景

图片

阶跃在「休闲娱乐」场景中表现最为亮眼,尤其该为各模型得分偏低场景,阶跃却显著高于第二名豆包 12 PP 左右,这主要得益于阶跃能够展现稳定的交互能力,准确理解游戏规则并保持流畅互动,在长对话过程中对规则的遵循能力稳定,这里给出和 GPT-4o 的效果对比,大家可以来直观感受下。


对话背景:说话人表示口才不好,需要练习怎么和不讲理的人沟通交流,想让大模型“角色扮演一位不讲理的人”与说话人对话。

阶跃效果分析:打断识别成功,扮演指令识别成功。整体自然流畅,表现出稳定的交互能力,角色扮演能力尤为突出可精准适配角色设定实现高沉浸度的对话体验。

点击👇播放真实对话案例


对话背景:行酒令游戏,帮我随机设定一个主题(比如“花”“月”“酒”),说一句与主题相关的诗词或成语。例如主题是“月”,行酒令说“举头望明月”“月落乌啼霜满天”“海上生明月,天涯共此时”。

GPT-4o 效果分析:语调生硬不合理;部分回复内容不合理,部分回答遗忘规则,将行酒令规则理解为“接诗句”;不具备推理能力,不能完成行酒令的游戏指令。

点击👇播放真实对话案例

2.4 问题解决场景

图片

第一梯队模型中,阶跃在「问题解决」场景中最为亮眼豆包在「问题解决」场景位列第四,与第一名相差 10 PP。这里我们来看一下问题解决场景下得分第一的阶跃 AI 和得分最后一名的文小言之间的差距。


对话背景:身为初三学生,想要寻求一些化学方程式方面的学习方法。

阶跃效果分析:出现了反应稍慢的问题,有时会自己打断自己,电音卡顿,但回答的内容较好,给出了一些学习化学方程式的有效建议。在问题解决场景下阶跃 AI 能准确理解用户核心诉求并提供具体可行的专业建议,建议内容直击痛点不空泛。

点击👇播放真实对话案例

文小言效果分析打断响应差;无法理解初中试验的场景,回答相关性差;实时性差,反应慢;长文本记忆能力极差,完全不记得第一个化学反应配平的问题;语气词的使用很诡异,人机感重。

△因后台可插入音频有限,为使读者们全面地了解实时语音交互 AI 产品,部分音频采取视频形式。

3.交互与认知维度评测

图片

图片

现有实时语音交互 AI 产品交互能力的实时性、拟人度、丰富度,以及认知能力的相关性都存在短板。记忆能力各产品表现参差不齐,其他维度问题较少。按照具体厂商进行分析:

3.1 阶跃 AI

阶跃 AI 在认知层面能力稳定,能准确理解用户意图并保持长多轮对话连贯性;但在交互层面存在明显短板,主要表现为拟人度较低,机械感明显(电音/卡顿频发),且丰富度识别能力较差(各细分维度均表现不佳)。


对话背景:说话人询问 AI 关于不同 MBTI 的人如何相处的问题。

阶跃效果分析:能准确识别说话人目的,回答的内容清晰明确,但偶尔的断句处有些奇怪,电音和卡顿现象出现。面对说话人的质疑,思维敏捷,直到最后也没被绕进去。

点击👇播放真实对话案例

3.2 豆包

豆包在基础交互能力上表现优秀,拟人度高且响应及时,极少出现卡顿或延迟问题,同时丰富性部分细分维度上识别能力领先,突出表现为年龄、情绪和性别的音色识别准确性较高;但在记忆力能力板块问题较大,多轮对话时容易遗忘之前交流内容,直接影响交互过程中的对话相关性,导致后续讨论衔接不畅。


对话背景:说话人询问大学生实习时的穿搭。

豆包效果分析:长文本断层,先是依据说话人的音色,推荐适合男性的穿搭;但对话后遗忘了之前的交流内容,无法依据音色,再次进行性别识别推荐服装,认知维度的记忆能力不足。

点击👇播放真实对话案例

3.3 第二梯队模型

GPT-4o VS MInimax AI 对比:

GPT-4o 在交互层面和认知层面表现均衡,没有明显长短板;MInimax AI 认知层面的记忆能力和交互层面的打断能力表现较好,在多轮交互中对于靠前轮次的对话记忆基本无误;但是在交互层面的实时性、拟人性和丰富度问题较大,在部分对话轮次中响应过敏(频繁打断说话人)或响应极度延迟(输入内容稍长响应延迟明显),且声音过于机械,没有语调起伏,在情绪、年龄和性别音色识别上也较为困难。


对话背景:

1、人物设定:实习教师,模拟给学生上语文课的互动场景。

2、对话内容:我是刚毕业的师范大学生,目前正在一所小学中实习,教的是语文,但我还是很紧张,希望可以模拟下上语文课的场景,你来跟我互动,可以吗?今天的课文内容是:小蝌蚪找妈妈。

GPT-4o 效果分析:两次未能成功理解“模拟学生”的指令;语音发音有问题,和课文内容不符。


对话背景:说话人表示自己遇到了好的伴侣,真心喜欢对方,但由于双方家庭的差距有困扰,询问 AI 如何向伴侣表达出自己的困扰。

MInimax AI 效果分析:不能识别老年音色,年龄音色;无法识别悲伤情绪;回复内容合理;部分时段响应过慢,1 分 18 秒-1 分 23 秒空白;打断无问题;电音较为明显,部分语调不合理。

阿里通义 VS Qwen2.5-Omni 对比

通义与 Qwen2.5-Omni 在交互与认知层面存在共性短板,即实时响应过敏和延迟、丰富度识别不足、打断机制不稳定,以及回复内容相关性差;二者也存在差异维度,在记忆能力上通义优于 Qwen2.5-Omni,但在拟人度上通义明显落后于 Qwen2.5-Omni,整体而言,通义在认知层面的表现更为出色,Qwen2.5-Omni在交互层面的表现更加亮眼。


对话背景:说话人询问 AI 关于考试成绩焦虑的问题。

Qwen2.5-Omni 效果分析:在交互能力的丰富度上表现较好,打断正常。部分内容回复不合理,例如:说话人说自己考了 98 分仍然被责怪,AI 没有进行安慰,而是说考的不好可以再进步。1 分 20 秒前后卡顿,多处电音明显。无法根据音色识别说话人年龄,部分内容回复不合理。

点击👇播放真实对话案例


对话背景:说话人表示工作繁忙,想要询问快速制作三菜一汤的方式。

通义效果分析:多次将三菜一汤理解为酸菜汤,出现中文识别问题,给出的建议也不满足“快速制作”的要求,偏离核心内容。

3.4 倒数梯队模型表现:

文小言与 Gemini live 为中文交互的垫底表现产品,在交互与认知层面的多个维度存在明显问题;但文小言在拟人度上表现良好 ,具体表现为语调自然流畅,无明显的发音错误;Gemini live 的优势主要在多轮对话中展现出较强的记忆能力


对话背景:说话人询问堂弟结婚时,在七月户外的得体穿搭。

Gemini live 效果分析:回答的内容和建议很专业,但无法识别出说话人的性别,打断响应慢,拟人度低,无情感,实时性较差


对话背景:说话人和 AI 交流“不想回老家”的情感问题,询问应该怎么办?

文小言效果分析:实时性差,反应非常慢,多次出现打断用户的现象;回答内容相关性极差;长文本记忆能力极差,不记得用户说过的话;说话语气怪异,非人感重。

我们可以看到第一梯队实时语音交互 AI 产品在分场景及分维度表现上呈现出紧密关联的优劣势:

  • 阶跃 AI 展现出稳定的认知能力,尤其在理解用户意图、保持长对话连贯性以及精准进行角色认知方面表现出色。因此,它在游戏、角色扮演等休闲娱乐场景以及问题解决场景中均达到了顶尖水平。然而,其共情与情境理解方面存在明显短板,这主要源于交互层面的拟人度较低,表现为频繁的电音、卡顿和明显的机械感,同时在全面识别用户丰富度信息(例如情绪感知)的能力上也表现不佳。

  • 豆包则拥有出色的基础交互能力,其拟人度高、响应及时,并能较好地识别语音中的年龄、情绪和性别信息。这使其在共情与情境理解及学习与自我提升场景中领跑,能够实现高情商的动态情感交互。然而,豆包的核心短板在于记忆力不足,这直接导致在问题解决场景下多轮对话容易脱节,从而影响到对话的相关性和方案的有效性。

其他模型方面亦各有特点:

  • 阿里通义(记忆力、认知更优)与 Qwen2.5-Omni(拟人度、交互更佳)各有侧重,但均面临实时响应、丰富度识别等共性瓶颈。

  • GPT-4o 在交互与认知层面表现均衡,无明显短板;Minimax AI 认知记忆和打断处理较好,但实时性、拟人度和丰富度识别是其弱项。

  • 即使是排名靠后的产品,如文小言(拟人度佳)和 Gemini live(记忆力强),也在特定维度上展现出其独特优势。

4. 总结

本次 AGI-Eval 评测社区对八大主流实时语音交互 AI 产品的深入评估,不仅清晰地揭示了当前语音 AI 发展的最新格局,更预示着未来技术演进的方向。阶跃 AI 和豆包的异军突起,超越了 GPT-4o ,不仅彰显了国产 AI 的强劲实力,也折射出不同产品在交互拟人度、情境理解、记忆连贯性等关键维度上的差异化优势与共性短板。尽管部分产品已能在特定场景下展现出惊艳的共情、角色扮演能力,但整体而言,在实时性、丰富度及深度记忆等方面的不足,仍是实现类人对话的显著壁垒。这表明语音 AI 的进化路径已从单纯的语音识别、音色模仿转向更深层次的交互智能,并逐步探索情感层面的理解。

展望未来,实时语音交互 AI 产品的发展将不再局限于音色、语调的逼真,而更侧重于构建跨场景、长周期、高情商的交互系统,需要算法在复杂意图理解、多模态情感推理、以及个性化记忆等方面持续突破,方能真正消弭人机对话的“次元壁”,让 AI 助手成为我们生活中更加无缝、自然、富有共情,甚至能进行创造性对话的伙伴。

如果未来某一天实时语音交互 AI 产品在各方面都达到了人类水平,是否打开了潘多拉魔盒,我们又该如何分辨 AI 和人类语音的真假?

以上就是本次评测的全部内容, AGI-Eval 大模型评测社区持续关注现在大模型行业的发展,持续探寻 AGI 的发展之路。关于模型的更多评测内容敬请关注我们!

— 完 —

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值