在当前大语言模型(LLMs)的评估领域,一个引人深思的“榜单逆序”现象正在显现。例如,AGI-Eval 与同济大学合作构建的 Arena 显示,国内开源模型零一万物 Yi-Lightning 以 1075.08 的评分位居用户投票榜首,显著超越国际闭源模型 OpenAI o1 (1027.6)。
然而,与之形成鲜明对比的是,AGI-Eval 专业评测体系通过 12 维度量化指标(包含答案准确性、信息量等)评估却显示,国际模型(如 OpenAI o1)的综合评测胜率领先零一万物 17.1 个百分点,且此结果与 HuggingFace Open LLM Leaderboard 等权威榜单高度一致。这种用户偏好与专业评估结果的显著分歧,引发了业界对现有评估体系有效性的深刻思考。
本文旨在深入探讨以 Chatbot Arena 平台为代表的真实用户偏好导向型评估,与以 AGI-Eval 专业指标评估体系(下称 AGI-Eval 专业评测)、OpenCompass 等为代表的主观指标化专业评测,在模型能力排序上展现逆序的现象。该评估结果逆序的现象不仅暴露了用户偏好与专业指标评估间的度量鸿沟,更表明,用户偏好导向型评估与主观指标化专业评测在模型能力排序上存在显著差异,并揭示了模型评估中度量鸿沟的客观存在。我们将深入剖析导致这一认知鸿沟的深层原因,并提出构建更全面评估体系的建议。
1.大模型排行榜现状概述
1.1 榜单逆序现象的核心问题
评估逆序现象背后折射出文化语境适配性与任务场景特异性问题。用户投票中表现优异的模型,往往更擅长处理本土化日常问题;而专业评测青睐的模型,在复杂学术、专业任务中更具优势。这意味着现有评估体系尚未建立统一的度量标准,难以全面反映模型在多元场景下的真实能力,亟需探索兼顾用户需求与专业标准的新型评估范式。
1.2 评估范式演进与挑战
追溯 LLMs 评估范式的发展,传统方法已显局限:静态数据集(如 BLEU、ROUGE)难以精确捕捉对话的流畅性、逻辑连贯性等核心维度,而人工评估则因成本高昂难以规模化。
为此,加州伯克利大学率先推出了 Chatbot Arena,通过构建众包驱动的交互式评测平台,将真实用户反馈融入模型能力量化,成为具影响力的评测基准。然而,Chatbot Arena 在多轮对话评估中暴露出情境依赖性偏差,即固定追问可能导致评估不公。
针对此问题,AGI-Eval 在继承 Chatbot Arena 双盲随机评测范式基础上,创新性提出了“动态分离式追问机制”。该机制将传统单一对话路径解构为两阶段交互:用户首轮查询并获得匿名模型的回复后,第二阶段根据各模型的具体回复,分别设计自定义追问指令,为每个模型开辟独立对话路径。相较于传统模式,该机制显著提升了评测效度:
-
更逼近真实场景: 模拟真人对话中根据对方回答灵活调整后续问题的习惯,提升评测的真实性和不可预测性。
-
更严格因果推断: 通过分离对话路径,避免模型间互相干扰,更清晰地评估每个模型独立的知识、逻辑与举一反三能力。
-
更全面能力刻画: 针对不同回复定制问题,更深入地探测模型能力的边界和潜在弱点,构建更立体的“能力地图”。
△AGI-Eval 支持动态分离式追问机制,即在首轮对话之后,与两个模型分别对话。
尽管 AGI-Eval 在评估方法上进行了诸多优化,但上述“榜单逆序”现象依然存在。AGI-Eval 针对以 Chatbot Arena 平台为代表的真实用户偏好导向型评估,与以 AGI-Eval 专业指标评估体系(下面简称 AGI-Eval 专业评测)、OpenCompass 等为代表的主观指标化专业评测,在模型能力排序上展现逆序的现象展开研究。
2. 榜单逆序的深层原因分析
为深入理解用户偏好与专业评估之间榜单逆序现象的本质,我们对 10118 组模型两两对战数据(包含 Arena 真实用户投票与 AGI-Eval 专业评测结果)进行了细致分析,揭示了导致这一差异的三大核心因素。
2.1 格式与风格的“伪装术”
研究发现,模型回答的呈现格式和风格对用户的选择偏好具有显著影响,甚至可以构成一种“伪装术”。用户普遍倾向于选择那些结构清晰、排版规范的格式化回答。下面给出两个模型对于同一个问题的回答,请你来选选哪种回复更好?
Query:帮我写一篇小红书文案,关于人工智能最新热点。
模型 A:
模型 B:
很多用户都更倾向选择模型 B 的回答,实测数据表明,存在以下问题:
-
用户偏好表现: 以一个生成小红书文案的例子为例,模型 B 的回答(通过使用表情符号、分点罗列、网络热词等修饰)显然比模型 A 的传统规范文本格式更受用户青睐。前期数据分析普遍表明,用户更倾向于选择那些易于阅读和消化的呈现形式,如分点罗列或加粗标题等。
-
潜在评估偏差: 这种对表面形式的偏好可能导致用户在评估时,无意中低估了模型在知识深度和逻辑推理等内在维度上的真实能力。一个内容扎实但排版普通的回答,可能因其形式上的不足而被用户低估。
为了降低这种风格偏好对评估结果造成的干扰,AGI-Eval 尝试构建了一套系统提示词控制体系。该体系通过实时向所有参评模型应用一组通用的系统提示词,强制要求模型采用统一的输出格式。
-
控制效果分析: 实验结果显示,这一风格控制方法对性能接近理论上限的高性能模型(其核心能力几乎不受影响)具有适用性,能够有效规范其输出格式。然而,对于性能较弱的模型,该方法却难以有效实现风格控制,因为它们往往无法在保持核心能力不受损害的前提下,同时满足目标格式要求。
-
“头部-尾部效应”加剧: 这种差异导致了一个副作用——模型性能的“头部-尾部效应”被进一步加剧。高性能模型在风格受控后显得更优,而低性能模型则因无法兼顾内容与格式而显得更差。
尽管存在这些挑战, AGI-Eval 仍在持续探索更为通用和有效的风格控制提示词,特别是针对 Markdown 和 LaTeX 等常用格式,以期能更公正地评估模型的内在能力,而非其外在表现形式。
2.2 评估场景与数据分布的“错位”
用户提问数据分布与专业评测需求之间存在显著“错位”。通过对比真实用户与 AGI-Eval 专业评测中各标签的关注度,我们发现:
-
真实用户数据: “准确性”权重极低(约 8%),“信息量”权重高达约 31%。
-
AGI-Eval 专业评测数据: “准确性”权重显著提升(约 28%),“信息量”权重则大幅下降(约 6%)。
案例分析印证:用户日常提问多为生活化、开放式问题(如 80% 推荐餐厅),而专业评测则多为高难度学术问题(如 70% 解析量子隧穿效应)。这种“文理分科”式的提问偏好,导致用户在评估时对“准确性”要求较低,更侧重于获取丰富信息。
为解决数据分布不均问题,AGI-Eval 实施了两项改进:
-
实时数据过滤: 智能筛查并过滤掉过于简单、无实质内容或无意义的“无效考题”,确保评测数据的“干净”和实质性。
-
预设 Query 推荐: 主动向用户推荐精心设计的问题列表,涵盖多能力维度和不同难度级别,引导用户提出覆盖更广、难度更合理、更能考验模型核心能力的有效问题。
这两项创新协同作用,显著改善了用户提问数据的分布均衡性、代表性和质量,为生成更公平、可靠、全面的模型评测结果奠定了基础。总而言之,AGI-Eval 通过“实时过滤无效提问”这一“筛子”剔除了干扰评测的“噪音”数据,同时通过“预设推荐高质量问题”这一“指挥棒”引导用户提出覆盖更广、难度更合理、更能考验模型核心能力的有效问题。这两项功能创新协同作用,显著改善了用户提问数据的分布均衡性、代表性和质量,为生成更公平、更可靠、更全面的模型评测结果奠定了坚实基础。
2.3 阅卷人偏好差异
导致榜单逆序的第三个关键因素在于真实用户与专业评测者在“阅卷”标准和偏好上的根本差异。
-
评估标准的一致性分歧: 在“答案准确性”这一核心能力维度上,真实用户与 AGI-Eval 专业评测的一致性最低。这反映出双方对准确性判断的最大分歧。相比之下,用户对“语言通顺性”及“语言生动性”等表层语言特征的判断一致性最高,导致“准确性”在用户评价中的重要性被降低。这种现象类似于大学论文评审中,不同导师对“见解独到”和“细节严谨性”的侧重不同。
-
典型模型表现与偏好印证: 为了更直观地探索两种评估体系的差异并验证上述推断,我们选取了用户评估榜首的 Yi-Lighnting 、MiniMax(代表用户偏好优胜者),以及专业评估体系下的 OpenAI o1-preview 、 GPT-4o (代表专业指标评测优胜者)进行了各标签胜率分析。分析结果清晰地印证了偏好差异的存在:
△注:表格中一致性指数为对原始一致率进行归一化并缩放为 0-10 的结果,方便直观展示差异
图中数据反映出以下信息:
专业评测优胜者: OpenAI o1-preview 和 GPT-4o 在“答案准确率”方面的胜率显著高于 Yi-Lightning 和 MiniMax 等国内模型。这表明它们在精确回答问题方面具有明显优势。
用户偏好优胜者: 然而在其他标签(如信息量、语言生动性等)方面, OpenAI o1-preview 和 GPT-4o 的胜率普遍低于国内头部模型。
接下来,让我们来看看具体的例子:如该示例中所示,对准确性考验不多的情况下,针对同一问题,Yi-Lightning 回复的信息量远超 OpenAI o1-preview 的回答。
Query:今天下雪了行车要注意
Yi-Lightning:
OpenAI o1-preview:
这一分析结果与前述观点高度契合:在专业评测框架中,由于“答案准确率”权重高达 30%(远超其他标签),因此在准确性方面表现突出的国际模型更容易获得高排名。但回到实际用户场景,当用户提问多集中于生活化、非硬核问题时,对模型准确性的考验相对有限。此时,国际模型在准确性上的优势不再是决定性因素,反而是那些能够提供丰富信息、表达流畅自然的国内模型,更容易赢得用户的青睐,从而在用户榜单中占据领先地位。
3. 评估体系的未来展望
与优化建议
综上所述,专业榜单与用户榜单出现逆序现象的根本原因在于数据分布的偏差和评测者偏好的差异。这如同考试分数高的学生未必受同学欢迎,而人气王可能并非学霸。基于本次研究结果,我们对于建立兼顾技术先进性与用户体验的评估体系提出以下几点启示和建议:
3.1 建立场景化的动态评估机制
未来评估体系应具备智能识别问题类型的能力,并根据具体场景动态调整评估标准。例如,针对日常对话类任务,应强化对信息表达完整性与清晰度的考量;而在专业问答场景下,则应重点考察模型的准确性与专业性。这种动态切换的评估方式,将避免“一刀切”的评判方式,使评估更具针对性。
3.2 推行人机协同的双轨评测体系
建议推行一种人机协同的双轨评测体系,以同时捕捉模型的技术能力和用户体验。在技术维度,可采用专业的量化指标对模型的事实准确性与技术能力进行严格评估。在体验维度,则应结合真实用户的主观反馈。关键在于根据具体应用场景,对这两类评价赋予不同权重(例如,专业场景技术分占 70% ,体验分占 30%;日常场景技术分占 30% ,体验分占 70%)。这种多元化、场景化的综合评分方式,将有助于更全面地评估模型性能。
3.3 建立分层分类的评估赛道
为了更公平、高效地评估各类大模型,有必要建立分层分类的评估赛道。这意味着应针对通用型、对话型、专业型等不同类型的 AI 模型,分别设定特定的评估标准和发展路径。这类似于体育赛事中不同项目的分组竞赛,避免了模型在非优势领域的无效竞争,也能鼓励各类模型在自身擅长的维度(如响应速度、情感共鸣、知识密度、代码生成能力等)持续深耕与优化。
4.总结
本次研究深入揭示了专业评估榜单与用户偏好榜单之间存在逆序现象的复杂原因,主要归结于模型回答的风格与格式偏好、评估场景中数据分布的错位,以及专业评估者与真实用户在评判标准上的差异。这些发现不仅解释了为何“学霸”与“人气王”在 LLM 排行榜上的深层矛盾,也深刻暴露了当前大模型评估体系所面临的挑战。
基于这些洞察,我们建议未来大模型的评估应跳出单一维度的局限,构建一个更加全面、动态且适应场景的评估范式。通过实施场景化的动态评估机制,确保模型在不同应用场景下得到针对性的衡量;通过推行人机协同的双轨评测体系,兼顾模型的客观技术实力与用户的主观体验感知;以及通过建立分层分类的评估赛道,促进各类模型在各自优势领域内实现最大化发展。整体而言,这种综合性的评估策略将有助于弥合当前评估体系中的认知鸿沟,促进人工智能模型在“智能”与“情感”两个维度实现更加均衡、协调的发展,最终推动 LLM 技术更好地服务于多样化的真实世界需求。
以上就是本次评测的全部内容,AGI-Eval 大模型评测社区将持续关注大模型行业的发展,持续探寻 AGI 的发展之路。关注我们,检索更多评测内容!
— 完 —