【AGI-Eval 实测速报】OpenAI o3/o4-mini视觉推理封神？实测翻车率略高

本文链接：https://blog.csdn.net/agi_eval/article/details/147755181

北京时间4月17日凌晨一点，OpenAI 的直播如约而至，发布最新 o 系列模型 OpenAI o3 和 o4-mini。本次模型发布，是 OpenAI 第一次让专门用来推理的模型也能用上 ChatGPT 的所有功能，比如分析图像和绘图，GhatGPT 功能又一次飞跃。我们连夜实测，输出这份硬核报告，下滑阅读！

1. 发布信息

1.1 模型简介

1.2 模型性能对比

2.图像识别与对比实测

2.1 图像识别

2.2 图像对比

3. 图像逻辑与理解实测

3.1 图像逻辑推理

3.2 梗图理解

01.发布信息

北京时间4月17日凌晨一点，OpenAI 开启了20分钟线上直播，上线了满血版 o3，还有下一代推理模型 o4-mini，官方称是 OpenAI 迄今为止最智能、功能最强大的模型。

1.1 模型简介

OpenAI o3

首次实现了图像与思维链的整合，模型不仅可以看到、生成图像，还可以用图像思考，堪称视觉推理的巅峰之作。

在直播中，工作人员提供了一个实例，询问模型“今早拍摄的一张照片中，最大的货轮的名字是什么”，模型在大约一分钟内，进行了图像分析、网络检索船舶信息等思考，最终为用户提供了船舶具体信息、此时停靠地点以及航线。

可见，o3 非常适合需要多方面考量分析的复杂问题，在 Codeforces、SWE-bench（无需构建自定义模型专用框架）和 MMMU 等基准测试中创下了新的 SOTA（最佳性能）。

OpenAI o4-mini

与 o3 相比，OpenAI o4-mini 是一款更小巧、但高效能的推理模型，更加适合快速、成本友好的轻量级任务。两个推理模型首次可以代理使用和组合 ChatGPT 中的网络搜索、Python、图像分析、图像生成、文件解释等工具。

关注我们，及时获取更多行业内容和资讯！

AGI-Eval大模型评测

AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态以“评测助力，让AI成为人类更好的伙伴"为使命。

14篇原创内容

公众号

1.2 模型对比

我们从深度推理、多模态感知、工具使用能力三个维度上来看OpenAI 新发布的 o3 和 o4-mini 与之前模型的对比

深度推理

数学：o4-mini > o3 > o3-mini

在美国数学邀请赛（AIME）的测试中，o4‑mini 表现亮眼，在 Python 加持下，AIME2024 和 AIME2025 两场测试中的准确率高达98.7%和99.5%，这一数据超过了同等条件下的 o3，更是与 o1 拉开巨大差距。

复杂知识：o3 > o4-mini > o3-mini

在跨学科的 PhD 级科学题（GPQA Diamond）中，o3 准确率为 83.3%，稍微领先于 o4‑mini 的81.4%。在专家级高难度测试，戏称“人类最后的考试”（Humanity’s Last Exam）中，o3 结合 Python 与搜索工具的准确率达 24.9%，相较 o1-pro 提升了约 200%。

多模态感知：图像与文本深度融合

o3 > o4-mini > o3-mini

在大学水平视觉问题解决（MMMU）、视觉数学推理（MathVista）、科学图表推理（CharXiv‑Reasoning）三个数据测试中，o3 分别达到了82.5%、85.5%与75.4%，与 o1 拉开较大差距。更小巧的 o4-mini 也表现亮眼，远超 o1，准确率与 o3 差距不足 2%，可见 o4-mini 作为轻量型版本的高性价比。

工具使用能力

o3 >> o4-mini > o3-mini

在多轮指令遵循（Scale MultiChallenge ）测试中，o3 准确率为56.51%，远高于 o4mini（42.99%）。在智能体浏览（ BrowerComp）测试中，有 Python 加持下 o3 准确率为49.7%，同样远高于同等条件下下的 o4mini（28.3%），与DeepReasearch 的准确率相当。

o3 和 o4-mini 已经可以将深度推理、多模态感知、工具使用能力结合。全面工具支持的 o3-pro 也将在未来几周内发布，Pro 用户目前还可以访问 o1-pro，后续 o3-pro 将替代 o1-pro，我们保持期待。

02. 图像识别与对比实测

划重点，我们先来看本次主观评测核心结论：

对于简单问题，o3 和 o4 mini 能够处理基础的图片推理任务，能够识别图片的基本信息并做内容回答，过程中有细节错误出现。
对于复杂问题（如找出图片的8处不同、根据图片推理），两个模型都无法完成任务，目前还无法处理高难度问题。
o3 的图像理解识别能力优于 o4 mini。

2.1 图像识别

2.1.1 识别图像事件

首先是简单的图片推理问题，我们给到了一张2022年北京冬奥的图片，看它们表现如何

首先是 o3 的回答，o3 几秒就回答上来了：

接着是 o4 mini ，这个题对 o4 mini 也毫无难度：

2.1.2 识别关联人物

那么我们将图片识别的内容进行升级，让 o3 和 o4mini 在大合照中找出目标人物，这次我们选了周冬雨。

首先来看 o3 的结果：

很意外的将人物识别到左上角，左上角明明是空白的，不具备人物标识，这个应该不算太难吧。

接下来，我们继续看 o4 mini 的表现：

o4 mini 将人物判别为了第一排，回答错位，也未看到红色箭头标识，虽然也不正确，但不至于将背景识别为人物。

2.2 图像对比

我们继续来看 o3 和 o4 mini 的图像对比能力，再看看它们能否通过考验，我们这次让它们找2个图片的找不同。

那么首先我们还是看o3 的回答：

找出了图片中的3处不同，数量正确，但在细节上有偏差：将“乌龟”识别成了“鱼”，将“乌龟左右位置不同”判断成了“上下位置不同”；将“珊瑚颜色从蓝色变成了橙色”，识别成了“橙色颜色深浅不同”，总体上不太让人满意。

我们继续看 o4 mini：

同样也找出了图片中的3处不同，数量正确，在细节上有所偏差：将“乌龟”识别成了“鱼”；将“珊瑚颜色由蓝变紫”识别成了“珊瑚形状变弯曲”，o4 mini 的表现也不太让人满意。

难度进一步拔高，两个图共有8处不同，看它们是否还是能够答对。

首先看 o3 的回答，果然翻车了，只找到了3处不同（垃圾车颜色变化、路灯变化、天空颜色变化），而天空颜色变化是错误的，那么 o3 只找到了2处。

那么 o4 mini 又能找出几个？

悬着的心终于死了， o4 mini 也只找到 3个（垃圾车的颜色、红绿灯的状态和路边的交通锥）， o4 mini 也和 o3 一样，给了一个莫名其妙的答案——路边的交通锥，但两张图片中的交通锥并没有什么不同。

03.图像逻辑与理解实测

3.1 图像逻辑推理

既然 o3 和 o4mini 在图片对比识别上未能达到预期，我们继续上一道经典的逻辑推理题，它们分别能答对多少？

1. 这个营地中有几名游客？安迪在干嘛？——有四名游客。餐布上分别有四个勺和盘子，值日表上也有四个日期。安迪不在值班表上，就是藏起来的人，在哪里呢？在树后面捕蝴蝶呢！

2. 他们什么时候到达这儿的？今天还是几天前？——几天前。帐篷和树木之间都已经结了蜘蛛网。

3. 他们是乘坐什么交通工具来这儿的？——他们是划船来这儿的。看到靠在树上的船桨了吗？

4. 营地附近有小镇吗？——附近有小镇。画面左下角有只鸡在闲逛。
5. 画面中是南风还是北风？——南风。首先要辨认南北。由于左侧树木比右侧茂密得多，可以判断画面左侧是南边。再可以看到帐篷上方的小旗子，往右边飘。因此，风是从南边吹来。
6. 这是一天的什么时候？——这是一天的上午。上面已经判断出右侧是北面了，再根据影子的位置，可以推理出太阳在东边。

7. 正在做饭的人是谁？——皮特。看到写着“C”的背包了吗？正在整理它的就是科林（Colin）了。写着字母“J”的背包里有个三脚架，那么正在拍照的就是詹姆斯（James）了。安迪正在捉蝴蝶，正在做饭的人就是皮特了。

8. 今天是几号？——今天是8号。对照值班表，皮特值班的日子是8号。

那么首先看 o3 的答案：