
OpenAI,
OpenAI, o1
OpenAI, o1 - preview
人类, 克劳德
十四行诗(6 月 24 日)
GPT-4o
阿里巴巴
,Qwen
2
指导
72B
阿里巴巴
,Qwen
2.5
DeepSeek, V2
阿里巴巴 , Qwen 聊天
3
72B
OpenAI , GPT - 3.5 Turbo
阿里巴巴 , Qwen 聊
3
天 7B
AArtificial Analysis
按起源划分的前沿语言模型
中国 AI 实验室逐渐赶上美国 AI 实验室 ; 来自中国实验室的模型
随着 DeepSeek 的 R1 模型的发布 , 现在正在接近 o1 级智能
推理模型很快变得司空见惯 : 推理模型(在回
答前进行“思考”的模型)最早由OpenAI在2024
年第三季度引入。几个月内,以DeepSeek为代
表的中国竞争对手已基本复制了o1的智能水平。
目前,多家中国AI实验室已经拥有前沿级别的推
理模型。
缩小差距 : 2024年最后几个月见证了多家顶尖
中国AI实验室推出众多高性能模型。这导致了中
国AI实验室与美国AI实验室在智能水平上的差距
缩小。目前,一些中国模型已与美国顶级实验室
的模型竞争。
1.人工分析智能指数:涵盖一系列语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA
Diamond、MATH-500及HumanEval。
发布日期基于该模型的首次公开发布。2.
o3智能指数通过放大测量的o1
的智能指数估算得出。3.
基于公司声明和可比结果估算。
在可用的情况下
,尚未通过人工分析进行独立基准测试
4Q22 1Q23 2Q23 3Q23 4Q23 1Q24 2Q24 3Q24 4Q24 1Q25 2Q25
模型发布日期
在前沿实验室附近打开模型 : 由 DeepSeek 和
阿里巴巴领导的开放权重模型已经接近 o1 级智
能。
2
R1
V3
指令 72B
95
90
85
80
75
70
65
60
55
50
45
40
35
30
25
20
15
o3
DeepSeek,
索 引1 人工分析智能
USA
中国
GPT - 4 Turbo
DeepSeek,
OpenAI ,
OpenAI ,
GPT - 4