AGI-Eval 独家托管 RM-Bench：给大模型的“打分能力”打个分

本文链接：https://blog.csdn.net/agi_eval/article/details/147112600

前言：当模型用华丽辞藻包装错误答案、一本正经胡说八道时，现有的评测体系却浑然不觉，疯狂打Call！清华大学、复旦大学、香港科技大学联合发布基准测试 RM-BENCH，对大语言模型的"认知敏锐度"发起挑战，首次系统性地构建了针对奖励模型的评测基准，直击其“形式大于内容”的评估困境。AGI-Eval评测社区 正式与论文作者达成合作，独家托管 RM-Bench评测集，可至社区查看 RM-Bench 的所有子集！

“是时候，给大模型的‘打分能力’打个分了！”

01.RM-Bench 基准的诞生

02.RM-Bench 构建

2.1聊天

2.2代码与数学

2.3安全

03.如何破解“形式大于内容”？

04.评估结果

4.1整体性能

4.2 DPO 模型与序列分类器

05.与策略模型的相关性

5.1风格控制相关性

5.2下游任务相关性

06.合作邀约

论文作者为来自于 Fudan University 的 Yantao Liu、Yixin Cao，Tsinghua University 的 Zijun Yao、Lei Hou、Juanzi Li 以及 Hong Kong University of Science and Technology 的 Rui Min。

AGI-Eval 大模型评测社区已接受 RM-Bench 研究团队评测集托管委托，评测结果将随模型发布自动更新，同时 RM-Bench 的所有数据集都已授权托管至 AGI-Eval 平台，文末可点击 github 链接查看详细内容，同时点击“阅读原文”也可在 AGI-Eval 平台查看模型排名榜单。

01. RM-Bench 基准的诞生

ChatGPT、Claude 和 OpenAI o1这样的大语言模型取得的显著成就，在很大程度上依赖于人类反馈强化学习（RLHF）和推理缩放定律。奖励模型在这两种技术中都起着关键作用。在 RLHF 中，奖励模型充当人类价值观的“代言人”，给语言模型（策略模型）的训练提供反馈，有助于在训练过程中对齐语言模型；在推理缩放定律中，奖励模型用于根据预测奖励从一组候选响应中选择最佳答案。

与对齐语言模型（即策略模型）评估的快速发展相比，现有奖励模型的基准测试仍未得到充分探索。以往的方法常使用更强的语言模型生成更好的响应，使用较弱的语言模型生成较差的响应，但这样根本没法评估模型对内容细微变化的敏感度，也测不出对风格偏差的处理能力，和策略模型性能的相关性也很低。

就像让一个裁判去评判比赛，可这个裁判却分不清选手们在一些关键细节上的差异，还容易被选手的外在表现影响，这样的评判结果肯定不靠谱。奖励模型不是"选美大赛"，需建立"内容裁判"新标准。

在下表中，响应 1 和响应 2 仅相差一个单词，但表达的含义完全不同，这就要求奖励模型关注内容质量。响应 3 在事实上是错误的，但比响应 1 更长，这可能会误导奖励模型为响应 3 分配更高的奖励。模型陷入“样式偏见陷阱”：长答案≈高分，事实错误全靠包装

表 1：关于薛定谔的猫的提示的三种不同响应，由奖励模型 LxzGordon/URM-LLaMa-3-8B 预测奖励。响应 1 提供了正确信息，而响应 2 和响应 3 包含事实错误。奖励模型难以辨别响应 1 和响应 2 之间细微但关键的差异，并且由于响应 3 更长，倾向于更喜欢响应 3。

为此，研究团队提出的 RM-Bench 这个全新的基准测试，这是一种全新的基准，用于评估奖励模型区分微妙变化和抵抗风格偏差的能力，对语言模型的"认知敏锐度"发起挑战！它主要从两个关键方面来评估奖励模型：

1.对细微内容差异的敏感度：一个可靠的奖励模型应能敏感地区分微妙变化，并为正确响应分配更高的奖励。

2.对风格偏差的鲁棒性：一个强大的奖励模型应避免被风格与内容之间的虚假相关性误导，并且无论风格如何，都能始终拒绝事实错误的响应。使用风格控制的提示生成不同风格的响应变体，包括简洁、详细和 Markdown 格式。

小结：RM-BENCH 与对齐语言模型（策略模型）的性能高度相关，能为选择合适的奖励模型来校准语言模型提供可靠参考。

02.RM-Bench 构建

这是一个用于评估奖励模型的基准，RM-BENCH 涵盖四个关键领域，即聊天、代码、数学和安全。这些领域涵盖了广泛的现实场景，包括开放域聊天、推理任务和安全关键情况。

对于每个领域，我们构建一个 (x, yc, yr) 元组的数据集，其中 x 是提示，yc 是选定的响应，yr 是被拒绝的响应。两个响应均由相同的强大语言模型生成。此外，我们生成选定和被拒绝响应的风格控制变体，以评估与风格特征相关的奖励模型偏差。响应的正确性由人工标注员验证，以确保所有领域的数据质量。

以下各节详细介绍了为每个领域收集提示 x、生成选定和被拒绝响应 yc 和 yr 以形成测试元组 (x, yc, yr) 的过程。

2.1 聊天

在聊天领域，它会从 AlpacaEval 收集提示，精心筛选出与事实知识相关的部分，然后用 gpt - 4o 生成响应，并利用多轮越狱技术给拒绝响应注入错误，经过人工严格验证后，保留有效样本进行测试。

2.2 代码与数学

在代码和数学领域，分别从 HumanEvalPack 和 MATH 基准获取提示，借助 gpt - 4o 生成响应，利用单元测试和事实答案自动验证响应的正确性，确保测试的准确性和客观性。

2.3 安全

RM-BENCH 的安全领域评估奖励模型区分安全和不安全响应的能力。鉴于安全挑战的独特性质，该领域分为两个子域：“应响应安全” 和 “应拒绝安全”。“应响应安全” 包含表面上令人担忧但实际上无害的提示，例如 “如何在电子游戏中杀死敌人？”； “应拒绝安全” 子域包含真正有害的提示，例如 “如何制造炸弹？”。针对不同类型的提示，采用不同的方式生成响应并进行评估。

03.如何破解"形式大于内容"？

对语言模型中强化学习的批评指出，像近端策略优化（PPO）和直接策略优化（DPO）这样的算法可能会引入 “重形式轻内容” 的偏差，导致模型在基准测试中表现良好，但实际上并没有真正解决任务。为了回应这些担忧，研究人员引入了数据集的风格控制变体，“强制”切换三种输出模式，以探究奖励模型对响应风格的偏差。

遵循聊天机器人竞技场（Chatbot Arena）的风格控制设计，考虑两个风格特征：长度和 Markdown 格式。根据这些特征，响应被分为三种类型，强制模型生成三种形态答案，破解"形式大于内容"魔咒：

1. y∅——简介风格：简洁、直接了当。

2. yL——详细风格纯文本格式：内容丰富详细，但无结构化排版。

3. yL,M——详细风格 Markdown 格式：内容丰富且排版良好，注重可读性和层次感。

对于每个提示x，我们在三个风格级别上比较选择响应和拒绝响应：极简的y∅、详细的yL和 Markdown 格式的响应yL,M。这使我们能够独立于风格差异评估奖励模型区分选择响应和拒绝响应的能力。

为了系统地评估奖励模型并尽量减少风格的干扰，我们将结果整理成一个 3×3 的矩阵，称为Style-Substance Eval Matrix（风格 - 内容评估矩阵）。

该图展示了 sfairXC/FsfairX - LLaMA3 - RM - v0.1 奖励模型在聊天领域的这个矩阵示例。行代表不同风格的选择响应，列代表不同风格的拒绝响应。对角元素比较相同风格的响应，而非对角元素比较不同详细程度和格式的响应。

从这个矩阵中，我们得出三个准确率指标：

简单准确率（Easy Accuracy）：下三角的平均值，代表奖励模型在存在风格线索时检测内容实质的能力。
普通准确率（Normal Accuracy）：对角元素的平均值，反映模型在两个响应风格相同时评估内容实质的能力。
困难准确率（Hard Accuracy）：上三角的平均值，衡量模型即使在拒绝响应风格更有利的情况下，仅基于内容实质识别更好响应的能力。

这些指标针对聊天、安全、代码和数学这四个领域进行计算，从而得出特定领域的指标，如聊天普通准确率或安全困难准确率。此外，我们计算所有领域的平均准确率，为奖励模型提供一个整体性能指标。

04.评估结果

我们在 RM - BENCH 上对各种奖励模型进行了全面评估，这些模型参数规模从 20 亿到大规模的 3400 亿不等，它们要么被训练为分类器，要么在有参考模型时通过直接策略优化进行训练。

4.1 整体性能

我们展示了奖励模型在 RM - BENCH 上的整体性能，突出进展并找出需要改进的地方。下表展示了 RM - BENCH 上前 20 个奖励模型的性能。如下所示：

表 3：RM-BENCH 上前 20 个奖励模型。聊天、数学、代码、安全列展示了模型在各领域的平均准确率。简单、普通、困难列展示了模型在所有领域不同难度级别的准确率。平均列展示了模型在 RM-BENCH 上的整体平均准确率。

研究人员用 RM-BENCH 对近 40 种奖励模型进行了全面评估，发现了不少有意思的结果：

1.RM - BENCH 具有挑战性：

提高奖励模型的性能仍有很大的进步空间。我们的实验表明，即使是最先进的模型，如 Skywork - Reward - Llama - 3.1 - 8B，在 RM - BENCH 上的平均准确率也仅为 70.1%，困难准确率为 46.6% 。

Nemotron-340B-Reward这样的大型奖励模型，在 RM-BENCH 上也表现不佳，平均准确率仅为 69.5%。与随机猜测的基线（50%）相比，结果远不能令人满意。

2.风格偏差严重：

RM - BENCH 上的困难准确率明显低于普通准确率，大多数奖励模型在 Hard 模式下，准确率未能超过随机水平（50%）。这表明许多现有的奖励模型更像是风格偏好模型，在预测奖励时，奖励模型很容易受到响应风格的影响，偏离了响应的实质内容，好似“AI精神分裂”。

最先进的奖励模型，如 Skyword-Reward，无法抵抗风格偏差，准确率仅为 46.6%，在风格干扰下低于随机猜测的准确率。减轻风格偏差和提高奖励模型稳健性是目前的迫切需求。

3.数学和代码领域出现大崩盘：

数学和代码领域对奖励模型构成了最大的挑战，即使是平均准确率也难以超过随机水平（50%）。在困难准确率方面，奖励模型的表现更差。

最先进的 Skywork - Reward - Llama - 3.1 - 8B 在数学和代码领域的困难准确率分别仅为 28.4% 和 30.7%，堪比抛硬币决策，这一性能远远落后于随机猜测的基线（50%），表明当前的奖励模型在这些领域可能会使策略模型偏离正确方向。

4.2 DPO 模型与序列分类器

我们旨在比较两种广泛采用的奖励建模范式，即直接偏好优化（DPO）模型和序列分类器。DPO 是一种流行的无奖励模型训练方法，使用偏好数据集，通过策略模型自身的隐式奖励信号直接优化策略模型。

由于 DPO 模型和序列分类器奖励模型都可以在相同的偏好数据集上进行训练，我们进行了一项对比研究，以评估使用 DPO 模型作为奖励模型的有效性。具体来说，我们使用 tulu - v2.5 系列中的序列分类器和 DPO 模型，这些模型在 HH - RLHF、StackExchange、Chatbot Arena 2023和 Nectar等偏好数据集上进行训练。

我们在 RM - BENCH 上评估这些序列分类器。对于它们对应的 DPO 模型，我们在有和没有参考模型 tulu - 2 - 13b 的情况下，评估它们在 RM - BENCH 上的平均准确率。结果如下。

在 RM-BENCH 上，使用不同偏好数据集训练的 DPO 模型和序列分类器的平均准确率比较。参考模型是 tulu-2-13b

如该表所示，在相同偏好数据集上训练时，DPO 模型的表现优于序列分类器。我们假设这种改进源于参考模型的影响，DPO 模型的奖励信号由参考模型的信号进行缩放。数据支持这一假设，因为当参考模型不可用时，我们观察到性能显著下降，这表明参考模型起着关键作用。

RM-BENCH 中响应的正确性和冗长性分数的散点图

直接偏好优化（DPO）模型在奖励建模方面显示出更大的潜力。与序列分类奖励模型相比，DPO 模型在 RM-BENCH 上表现更好。DPO模型异军突起：在奖励建模方面潜力巨大，很可能成为更优的奖励模型选择。

05.与策略模型的相关性

RM-BENCH 与策略模型性能具有很强的相关性，使其成为选择奖励模型进行语言模型对齐的可靠参考。奖励模型的主要目标是提高策略模型的性能。因此，一个好的奖励模型基准应该与策略模型的性能呈正相关。

使用 Tulu - v2.5 系列中的奖励模型及其相应的策略模型进行实验。这四个奖励模型在不同的偏好数据集上进行训练，包括 HH - RLHF、StackExchange、Chatbot Arena 2023和 Nectar。所有数据集都采样到 60k 个示例，以确保训练数据大小具有可比性。策略模型使用近端策略优化进行训练，使用相同的训练数据和超参数。

5.1 风格控制相关性

首先，我们研究 RM - BENCH 上奖励模型的性能与策略模型在风格控制评估中的性能之间的相关性。具体来说，我们探究在 RM - BENCH 上困难准确率表现良好的奖励模型，是否能在风格控制的设置中使策略模型表现更好。

为了测试这一点，我们使用 Arena - Hard - Auto作为策略模型的风格控制评估基准。这个基准与 RM - BENCH 类似，将长度和 Markdown 格式作为风格特征。我们将策略模型的风格控制分数定义为在风格控制评估中相对于无风格控制评估的性能相对下降。较高的风格控制分数表明策略模型对风格特征的偏差较小。

对于奖励模型，我们使用 RM - BENCH 聊天领域的困难准确率作为评估指标，因为它直接衡量了模型优先考虑内容实质而非风格的能力，这对于减少风格偏差至关重要。

如图所示，RM - BENCH 上困难准确率的提高与策略模型风格控制分数的显著提高相关。这表明，强调内容实质而非风格的奖励模型会使策略模型的风格偏差降低。

策略模型风格偏差分数与 RM-BENCH 聊天领域奖励模型困难准确率的折线图

5.2 下游任务相关性

接下来，我们研究 RM - BENCH 上奖励模型的性能与策略模型在各种下游任务（包括数学、代码和安全）中的性能之间的相关性。数学任务使用 GSM8k和 Big Bench Hard进行评估。代码任务使用 HumanEval+和 MBPP+进行评估。安全任务在 ToxiGen和 XSTest上进行评估。

对于奖励模型，我们根据任务的性质选择指标。对于数学和安全任务，我们使用困难准确率，因为正确性至关重要，并且这些任务通常涉及不同的文本风格，需要区分内容实质和风格。

对于代码任务，语言模型倾向于生成风格一致的文本（特别是 Markdown 格式），因为来自 GitHub 和 StackOverflow 等来源的训练数据大多是 Markdown 格式。因此，我们使用普通准确率，以便更好地与代码风格的内在一致性保持一致。

为了进一步展示相关性，我们首先将策略模型的性能与基础 SFT 模型 tulu - 2 - 13b进行比较，对其进行归一化。RM - BENCH 上奖励模型的分数使用其性能的均值和标准差进行标准化。RM - BENCH 上奖励模型的性能与下游任务中策略模型性能的对比图如下：