【AGI-Eval 实测速报】OpenAI o3/o4-mini视觉推理封神?实测翻车率略高

北京时间4月17日凌晨一点,OpenAI 的直播如约而至,发布最新 o 系列模型 OpenAI o3 和 o4-mini。本次模型发布,是 OpenAI 第一次让专门用来推理的模型也能用上 ChatGPT 的所有功能,比如分析图像和绘图,GhatGPT 功能又一次飞跃。我们连夜实测,输出这份硬核报告,下滑阅读!

图片

目录:

1. 发布信息

   1.1 模型简介

   1.2 模型性能对比

2.图像识别与对比实测

   2.1 图像识别

   2.2 图像对比

3. 图像逻辑与理解实测

   3.1 图像逻辑推理

   3.2 梗图理解

01.发布信息

北京时间4月17日凌晨一点,OpenAI 开启了20分钟线上直播,上线了满血版 o3,还有下一代推理模型 o4-mini,官方称是 OpenAI 迄今为止最智能、功能最强大的模型。

图片

1.1 模型简介

OpenAI o3

首次实现了图像与思维链的整合,模型不仅可以看到、生成图像,还可以用图像思考,堪称视觉推理的巅峰之作。

在直播中,工作人员提供了一个实例,询问模型“今早拍摄的一张照片中,最大的货轮的名字是什么”,模型在大约一分钟内,进行了图像分析、网络检索船舶信息等思考,最终为用户提供了船舶具体信息、此时停靠地点以及航线。

图片

可见,o3 非常适合需要多方面考量分析的复杂问题,在 Codeforces、SWE-bench(无需构建自定义模型专用框架)和 MMMU 等基准测试中创下了新的 SOTA(最佳性能)。

OpenAI o4-mini

与 o3 相比,OpenAI o4-mini 是一款更小巧、但高效能的推理模型,更加适合快速、成本友好的轻量级任务两个推理模型首次可以代理使用和组合 ChatGPT 中的网络搜索、Python、图像分析、图像生成、文件解释等工具。

关注我们,及时获取更多行业内容和资讯!

AGI-Eval大模型评测
AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。
14篇原创内容

1.2 模型对比

我们从深度推理、多模态感知、工具使用能力三个维度上来看OpenAI 新发布的 o3 和 o4-mini 与之前模型的对比

深度推理

数学:o4-mini > o3 > o3-mini

在美国数学邀请赛(AIME)的测试中,o4‑mini 表现亮眼,在 Python 加持下,AIME2024 和 AIME2025 两场测试中的准确率高达98.7%和99.5%,这一数据超过了同等条件下的 o3,更是与 o1 拉开巨大差距。

图片

复杂知识:o3 > o4-mini > o3-mini

在跨学科的 PhD 级科学题(GPQA Diamond)中,o3 准确率为 83.3%,稍微领先于 o4‑mini 的81.4%。在专家级高难度测试,戏称“人类最后的考试”(Humanity’s Last Exam)中,o3 结合 Python 与搜索工具的准确率达 24.9%, 相较 o1-pro 提升了约 200%。

图片

多模态感知:图像与文本深度融合

o3 > o4-mini > o3-mini

在大学水平视觉问题解决(MMMU)、视觉数学推理(MathVista)、科学图表推理(CharXiv‑Reasoning)三个数据测试中,o3 分别达到了82.5%、85.5%与75.4%,与 o1 拉开较大差距。更小巧的 o4-mini 也表现亮眼,远超 o1,准确率与 o3 差距不足 2%,可见 o4-mini 作为轻量型版本的高性价比。

图片

工具使用能力

o3 >> o4-mini > o3-mini

在多轮指令遵循(Scale MultiChallenge )测试中,o3 准确率为56.51%,远高于 o4mini(42.99%)。在智能体浏览( BrowerComp)测试中,有 Python 加持下 o3 准确率为49.7%,同样远高于同等条件下下的 o4mini(28.3%),与DeepReasearch 的准确率相当。

图片

o3 和 o4-mini 已经可以将深度推理、多模态感知、工具使用能力结合。全面工具支持的 o3-pro 也将在未来几周内发布,Pro 用户目前还可以访问 o1-pro,后续 o3-pro 将替代 o1-pro,我们保持期待。

02. 图像识别与对比实测

划重点,我们先来看本次主观评测核心结论:

  • 对于简单问题,o3 和 o4 mini  能够处理基础的图片推理任务,能够识别图片的基本信息并做内容回答,过程中有细节错误出现。

  • 对于复杂问题(如找出图片的8处不同、根据图片推理),两个模型都无法完成任务,目前还无法处理高难度问题。

  • o3 的图像理解识别能力优于 o4 mini。

2.1 图像识别

2.1.1 识别图像事

首先是简单的图片推理问题,我们给到了一张2022年北京冬奥的图片,看它们表现如何

图片

首先是 o3 的回答,o3 几秒就回答上来了:

图片

接着是 o4 mini ,这个题对 o4 mini 也毫无难度:

图片

2.1.2 识别关联人物

那么我们将图片识别的内容进行升级,让 o3 和 o4mini 在大合照中找出目标人物,这次我们选了周冬雨。

图片

首先来看 o3 的结果:

图片

很意外的将人物识别到左上角,左上角明明是空白的,不具备人物标识,这个应该不算太难吧。

接下来,我们继续看 o4 mini 的表现:

图片

o4 mini 将人物判别为了第一排,回答错位,也未看到红色箭头标识,虽然也不正确,但不至于将背景识别为人物。

2.2 图像对比

我们继续来看 o3 和 o4 mini 的图像对比能力,再看看它们能否通过考验,我们这次让它们找2个图片的找不同。

图片

那么首先我们还是看o3 的回答:

图片

找出了图片中的3处不同,数量正确,但在细节上有偏差:将“乌龟”识别成了“鱼”,将“乌龟左右位置不同”判断成了“上下位置不同”;将“珊瑚颜色从蓝色变成了橙色”,识别成了“橙色颜色深浅不同”,总体上不太让人满意。

我们继续看 o4 mini:

图片

同样也找出了图片中的3处不同,数量正确,在细节上有所偏差:将“乌龟”识别成了“鱼”;将“珊瑚颜色由蓝变紫”识别成了“珊瑚形状变弯曲”,o4 mini 的表现也不太让人满意。

难度进一步拔高,两个图共有8处不同,看它们是否还是能够答对。

图片

首先看 o3 的回答,果然翻车了,只找到了3处不同(垃圾车颜色变化、路灯变化、天空颜色变化),而天空颜色变化是错误的,那么 o3 只找到了2处。

图片

那么 o4 mini 又能找出几个?

图片

悬着的心终于死了, o4 mini 也只找到 3个(垃圾车的颜色、红绿灯的状态和路边的交通锥), o4 mini 也和 o3 一样,给了一个莫名其妙的答案——路边的交通锥,但两张图片中的交通锥并没有什么不同。

03.图像逻辑与理解实测

3.1 图像逻辑推理

既然 o3 和 o4mini 在图片对比识别上未能达到预期,我们继续上一道经典的逻辑推理题,它们分别能答对多少?

图片

1. 这个营地中有几名游客?安迪在干嘛?——有四名游客。餐布上分别有四个勺和盘子,值日表上也有四个日期。安迪不在值班表上,就是藏起来的人,在哪里呢?在树后面捕蝴蝶呢!

2. 他们什么时候到达这儿的?今天还是几天前?——几天前。帐篷和树木之间都已经结了蜘蛛网。

3. 他们是乘坐什么交通工具来这儿的?——他们是划船来这儿的。看到靠在树上的船桨了吗?

4. 营地附近有小镇吗?——附近有小镇。画面左下角有只鸡在闲逛。
5. 画面中是南风还是北风?——南风。首先要辨认南北。由于左侧树木比右侧茂密得多,可以判断画面左侧是南边。再可以看到帐篷上方的小旗子,往右边飘。因此,风是从南边吹来。
6. 这是一天的什么时候?——这是一天的上午。上面已经判断出右侧是北面了,再根据影子的位置,可以推理出太阳在东边。

7. 正在做饭的人是谁?——皮特。看到写着“C”的背包了吗?正在整理它的就是科林(Colin)了。写着字母“J”的背包里有个三脚架,那么正在拍照的就是詹姆斯(James)了。安迪正在捉蝴蝶,正在做饭的人就是皮特了。

8. 今天是几号?——今天是8号。对照值班表,皮特值班的日子是8号。

那么首先看 o3 的答案:

图片

令人寒心,o3 仅答对2个!那么接着又看 o4 mini 能回答对几个?

图片

o4 mini 也只回答对了这2个问题!不过也在意料之中,这个题目确实有点难度!

3.2 梗图理解

我们测试完几个以上比较严谨的 Case,再来几个轻松的梗图,看下 o3 和 o4 mini 是否能理解其中含义。

(1)Bears 和 B


o3 似乎不能 get 一点“ears”的笑点,没有明确指出熊的耳朵没了,同时也误认为下方的图片少了一只熊。

图片

o4 mini 就完全不能理解,自己强行幽默。

图片

(2)“好酒”和“好酒不见”

o3 没有把“好酒不见”和“好久不见”这个谐音梗联系起来,注意力只是在于“好酒”。

图片

o4 mini 还是强行解释,假装自己很懂幽默。

图片

(3)26岁的员工30年经验

o3 直接讽刺这张图片是职场上对理想求职者的过高期望和现实之间的脱节,理解能力100分!

图片

o4 mini 这次也理解了这个图的含义,暗示了招聘市场中某些不切实际的要求,但是说这是一种幽默效果!明显没有 o3 理解的深啊!明明是讽刺!

图片

(4)女朋友的自拍照

o3 对于这张图片的理解有一点,但不多,能够理解女友的自拍照都差不多,但是无法理解需要男友去分辨不同的痛苦!

图片

o4 mini 就无法理解这张图片的含义,只能是“幽默”的解释了一波,这是情侣间的对话。

图片

(5)程序员的困惑

o3 对于这个图片的理解很到位,可能 o3 也是一个老程序员了吧,深有体会!

图片

o4 mini  的理解也不差,o4 mini 自己真的是个“幽默程序员”,很喜欢用幽默两个字!

图片

实测小结

通过实测来看,o3 和 o4 mini  能够处理基础的图片推理任务,能够识别图片的基本信息并做内容回答(但还是有错误出现)

如果将任务难度上升(如找出图片的8处不同、根据图片推理),两个模型都无法完成任务,目前还无法处理高难度问题。但是 o3 在 图片逻辑和理解能力上,是强于 o4 mini 的,在梗图理解上能够挖掘背后的深意(如招聘讽刺),o4 mini 只一味评判幽默。

我们后续也将对这2个模型进行全方位评测,敬请关注我们!

以上就是本次评测的全部内容。我们 AGI-Eval 大模型评测社区持续关注现在大模型行业的发展,持续探寻 AGI 的发展之路,后续我们也将第一时间为大家评测更多模型,期待更多人加入我们。

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来大模型最新资讯&评测&榜单信息记得关注我们!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值