o3 和 o4 mini 的全方位评测结果来啦!o3 直接在文本推理方向上登顶!在交互能力和指令遵循等方面处于领先地位,但在知识储备方向稍显不足。o4 mini 也表现亮眼,在代码方向,强于 OpenAI-o3-mini (high)、OpenAI-o3和Deepseek-R1 等一众模型,准确率登顶第一,在推理方向处于小型推理模型 Top1。那么一起来看下本次评测结果!
目录:
1. o3 和 o4 mini评测分析
1.1 评测概述
1.2 o3 评测结果
1.3 o4-mini评测结果
2. o3 和 o4 mini 信息回顾
1.o3 和 o4 mini评测分析
1.1 评测概述
【评测对象】
OpenAI-o3 与 OpenAI-o4-mini
【评测方式】
基于自建的通用能力评测集与公开评测集
【评测结论】
① o3 毫无悬念的登顶,在交互能力、推理能力、指令遵循和初等数学四个方面全面领先;
② o4-mini 代码准确率登顶 Top1,高达0.5400,模型排名也来到了第三。
接下来我们继续为大家拆解 o3 和 o4-mini 的详细评测内容
1.2 o3 评测结果
o3 核心结论:
o3 在综合能力上表现优异,尤其在交互能力、推理能力和指令遵循方面处于领先地位。但是其知识储备相较于 OpenAI-o1 稍显不足,同时在认知能力方面与 DeepSeek-R1 存在一定差距。
同类型模型能力对比:
本次评测,我们基于自建的通用能力评测集与公开评测集,将 OpenAI o3 与 o1 进行了对比:
在通用能力上,OpenAI o3 水位优于 OpenAI o1,其中推理能力有明显提升,但认知能力稍有下降;
在输出长度上,OpenAI o3 在代码推理能力提升的同时,输出长度没有增加,反而减小了,没有通过输出成本置换能力的提升。
o3 在推理模型领域处于领先地位,其胜率均显著优于同系列产品 OpenAI-o1,推理能力提升较为显著。
1.3 o4-mini 评测结果
o4-mini 核心结论:
o4-mini 处于推理模型第一梯队,和 o1 能力相当,但相较 o3 仍有差距;o4-mini 处于小型推理模型 Top1。
同类型模型能力对比:
我们将同为小型推理模型的 OpenAI-o4-mini 与 o3-mini 进行了对比:
在通用能力上,o4-mini 水平优于 o3-mini,其中推理能力提升较为显著,仅次于 Top1(o3);但指令遵循弱于 o3-mini(medium/high);
在交互能力上,o4-mini 较 o3-mini(high)有提升,但距离 o3、o1 仍有差距,且落后于 DeepseekR1 和 V3、doubao-1.5-pro。
o4-mini 代码准确率登顶 Top1,强于 OpenAI-o3-mini(high),OpenAI-o3,Deepseek-R1。
【指标注释说明】
-
客观评测准确率指标说明:模型回答正确数量/总评测数据总量;
-
主观评测胜率指标说明:(1*N_明显好+0.75*N_稍好+0.5*N_二者差不多+0.25*N_稍差+0*N_明显差)/总评测数据量
* 评测指标是被评测模型相对于标杆模型的五档加权胜率
*标杆模型为 GPT4-turbo-0125
-
评测方案:可点击阅读原文跳转官网,评测榜单处点击评测方案查看
2.o3 和 o4 mini 实测回顾
上一期我们对 o3 和 o4 mini 进行了实测,出现了不少翻车案例,无法识别梗图、找图片不同之处找不齐且识别有错误等等,详见【AGI-Eval 实测速报】OpenAI o3/o4-mini视觉推理封神?实测翻车率略高
虽然 o3 和 o4 mini 在实测中有不少翻车案例,但是在更加全面、科学的评测中,我们印证了 OpenAI o3 是 OpenAI 最强大的推理模型,它推动了编码、数学、科学、视觉感知等领域的发展。它在包括 Codeforces、SWE-bench(无需构建自定义模型特定支架)和 MMMU 在内的基准测试中设定了新的 SOTA。
它非常适合需要多方面分析且答案可能不是立即显而易见的复杂查询,在分析图像、图表和图形等视觉任务中表现尤为出色。在外部专家的评估中,o3 在困难的现实任务中比 OpenAI o1 犯的重大错误少 20%,尤其是在编程、商业咨询和创意构思等领域表现出色。
o3 作为当前最强的图像推理模型, 在V*测试中,视觉推理方法达到了 95.7% 的准确率。
OpenAI-o4-mini 是一种较小的模型,针对快速、经济高效的推理进行了优化——它在其尺寸和成本方面实现了卓越的性能,特别是在数学、编码和视觉任务方面。它是 AIME 2024 和 2025 上表现最佳的基准模型。在专家评估中,o4-mini 在非 STEM 任务以及数据科学等领域的表现均优于其前身 o3-mini。得益于其高效性,o4-mini 支持的使用限制远高于 o3,使其成为处理需要推理能力的问题的强大高容量、高吞吐量解决方案。
o4-mini推理能力增强伴随成本增加。如下图所示:
以上内容就是本次的评测内容,想要查看更多榜单内容,请点击“阅读原文”跳转至官网。
AGI-Eval介绍
AGI—Eval 是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态,以“评测助力,让AI成为人类更好的伙伴”为使命,专门设计用于评估基础模型在人类认知和问题解决相关任务中的一般能力。
AGI-Eval 大模型评测社区持续关注现在大模型行业的发展,持续探寻 AGI 的发展之路。后续我们将进一步发布 o3 和 o4 mini 的多模态能力评测结果,敬请关注我们!
>/ 联系AGI-Eval小助手:请添加微信 AI_Ceping
>/ 投稿请联系邮箱:agieval17@gmail.com
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来大模型最新资讯&评测&榜单信息,记得关注我们!