【AI论文】WebSailor:引领网络智能体实现超人类推理能力

摘要:超越人类认知局限是大语言模型(LLM)训练领域的关键前沿课题。像DeepResearch这类专有智能体系统,已在BrowseComp等极为复杂的信息检索基准测试中展现出超越人类的能力,而这在以往是难以企及的。我们认为,这些系统的成功取决于一种开源模型所不具备的复杂推理模式:即在海量信息环境中导航时,能够系统性地降低极端不确定性。基于这一洞察,我们推出了WebSailor——一种完整的后训练方法体系,旨在赋予模型这一关键能力。我们的方法包括:通过结构化采样和信息模糊化生成新颖的高不确定性任务、采用RFT冷启动策略,以及运用一种高效的智能体强化学习训练算法——重复采样策略优化(Duplicating Sampling Policy Optimization,DUPO)。通过这一集成式流程,WebSailor在复杂信息检索任务中的表现显著优于所有开源智能体,达到了与专有智能体相当的性能水平,从而缩小了能力差距。Huggingface链接:2507.02592,论文链接:WebSailor: Navigating Super-human Reasoning for Web Agent

研究背景和目的

研究背景

随着互联网的普及,信息获取已成为人类的基本需求。然而,人类在处理海量数字信息时受到认知能力的限制,如有限的记忆力、易分散的注意力以及无法同时探索多条路径等。相比之下,大型语言模型(LLM)智能体展现出超越这些人类局限的潜力。例如,专有智能体系统如DeepResearch在复杂的信息检索基准测试(如BrowseComp)上表现出色,这些任务要求智能体在庞大的信息空间中导航并系统化地减少不确定性。然而,这种高级推理能力在开源模型中尚未实现,导致开源智能体与专有智能体之间存在显著的性能差距。

研究目的

本研究旨在通过引入一种名为WebSailor的后训练方法,缩小开源智能体与专有智能体在复杂信息检索任务中的能力差距。具体目标包括:

  1. 分析现有开源智能体的不足:揭示当前开源智能体在处理高不确定性、复杂信息检索任务时的局限性。
  2. 提出并验证WebSailor方法:通过结构化采样、信息模糊化、RFT冷启动和高效的强化学习算法(DUPO),赋予开源智能体系统化减少不确定性的能力。
  3. 评估WebSailor的性能:在多个复杂信息检索基准测试上验证WebSailor的有效性,证明其能够达到或超越专有智能体的性能。

研究方法

1. 数据合成与任务设计

为了训练能够处理高不确定性任务的智能体,研究首先生成了大量新颖、高不确定性的问答对(SailorFog-QA)。这些任务通过以下步骤构建:

  • 基于随机游走的知识图谱构建:从Wikidata等知识库中获取稀有实体作为起点,通过随机游走生成包含复杂实体关系的知识图谱。这些图谱具有非线性和高度互联的结构,模拟真实世界中的复杂信息环境。
  • 子图采样与问题生成:从构建的知识图谱中采样子图,基于子图中的实体和关系生成高不确定性的问题。通过引入信息模糊化技术(如使用模糊的时间描述、部分隐藏实体名称等),增加问题的初始不确定性。
2. 推理轨迹重建

利用强大的开源大型推理模型(如QwQ和DeepSeek-R1)生成解决这些高不确定性问题的成功行动-观察轨迹。然而,直接使用这些模型的完整输出进行微调并不理想,因为它们的推理过程往往冗长且带有特定的风格。因此,研究提出了一种轨迹重建方法:

  • 保留行动-观察序列:丢弃原始模型生成的冗长思考过程,仅保留成功的行动-观察序列。
  • 重建简洁推理:使用另一个强大的指令跟随模型(如π*)为每个步骤生成简洁、逻辑清晰的思考过程,形成完整的、高质量的推理轨迹。
3. 拒绝采样微调(RFT)冷启动

为了在复杂的强化学习任务中提供稳定的初始性能,研究采用了一种轻量级的拒绝采样微调(RFT)冷启动策略:

  • 轨迹筛选:只保留最终答案正确且长度不超过32k token的轨迹,同时确保轨迹包含足够多的工具调用(超过5次),以反映复杂的推理模式。
  • 监督微调:使用筛选后的轨迹对模型进行监督微调,重点增强模型的决策能力(即生成有效思考和行动的能力),同时屏蔽环境观察的token以避免对特定环境反馈的过度依赖。
4. 重复采样策略优化(DUPO)

为了进一步提高智能体的推理能力和样本效率,研究提出了一种高效的强化学习算法——重复采样策略优化(DUPO):

  • 动态采样策略:在训练前和训练过程中采用两种动态采样策略,通过过滤掉过于简单或完全错误的样本,并随机复制具有非零标准差的样本,提高训练速度和稳定性。
  • 奖励设计:采用基于规则的奖励机制,结合格式验证和答案验证,确保智能体生成的轨迹既符合预定义格式,又能正确回答问题。

研究结果

1. 性能提升

WebSailor在多个复杂信息检索基准测试上表现出色,显著优于所有开源智能体,并在某些任务上达到了与专有智能体相当的性能水平。具体结果包括:

  • BrowseComp-en/zh:WebSailor在英文和中文版本的BrowseComp基准测试上均取得了显著提升,尤其是WebSailor-72B模型在BrowseComp-zh上的表现与顶级专有智能体Doubao相当。
  • GAIA、XBench-DeepSearch和SimpleQA:WebSailor在这些基准测试上也表现出色,证明了其向下兼容简单任务的能力。
2. 推理能力增强

通过分析WebSailor生成的推理轨迹,发现其能够生成更加系统化和高效的推理过程,有效减少了在复杂信息空间中的不确定性。例如,在BrowseComp任务中,WebSailor能够动态合成部分信息、修剪无前途的探索路径,并整合不同事实以收敛到解决方案。

3. 样本效率提高

DUPO算法的应用显著提高了强化学习的样本效率,使得WebSailor能够在较少的训练步骤内达到较高的性能水平。与直接进行强化学习训练的基线相比,经过RFT冷启动的WebSailor在最终性能上表现出显著优势。

研究局限

尽管WebSailor在复杂信息检索任务中取得了显著进展,但研究仍存在以下局限:

  1. 上下文长度限制:为了实用性,研究将训练轨迹的长度限制在32k token以内,这可能限制了模型处理更复杂问题的能力。在实际应用中,随着推理长度的增加,性能可能会下降。
  2. 过度思考倾向:WebSailor有时会对简单问题应用多步工具调用,尽管这种“交叉验证”行为在某些情况下有助于提高答案的准确性,但也增加了不必要的计算开销。
  3. 训练效率:尽管DUPO算法提高了样本效率,但强化学习过程的训练速度仍然较慢,主要受限于同步强化学习框架的效率。

未来研究方向

针对上述局限,未来的研究可以从以下几个方面展开:

  1. 扩展上下文长度:探索更高效的方法来处理更长的推理轨迹,例如通过分块处理或引入外部记忆机制,以支持模型处理更复杂的信息检索任务。
  2. 优化过度思考行为:研究如何平衡模型的探索与利用能力,避免在简单问题上过度消耗计算资源。这可以通过引入更精细的奖励机制或调整强化学习算法的超参数来实现。
  3. 提高训练效率:迁移到异步训练框架以提高强化学习的训练速度,同时探索更高效的采样和策略优化方法,进一步缩短训练时间并降低计算成本。
  4. 多模态信息检索:将WebSailor的方法扩展到多模态信息检索任务中,结合文本、图像、视频等多种信息源,提高智能体在复杂环境中的适应能力。
  5. 可解释性与安全性:研究如何提高WebSailor生成推理轨迹的可解释性,以便用户更好地理解模型的决策过程。同时,关注模型在处理敏感信息时的安全性和隐私保护问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值