没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
近年来,代码生成模型在自动化软件开发任务方面展示了令人印象深刻的性能,但在现实世界的软件工程场景中仍面临挑战。尽管当前的训练方法,特别是后训练,在解决竞争性编程问题方面表现出色,但它们未能充分准备模型以应对实际软件开发的复杂性。这种错位提出了一个关键问题:现有的对齐训练方法是否适合现实世界的软件工程任务?在本研究中,我们确定了这一问题,并提出了SEAlign,这是一种新颖的对齐框架,旨在弥合代码生成模型与现实世界软件开发任务之间的差距。SEAlign利用软件工程过程的独特特征(包括高质量的工作流步骤)来增强模型能力。我们的框架进一步采用蒙特卡洛树搜索(MCTS)进行多步决策过程的细粒度对齐,并通过偏好优化关键动作确保模型满足现实需求。我们在三个标准的现实世界软件工程基准上评估了SEAlign,包括HumanEvalFix、SWE-Bench-Lite和SWE-Bench-Verified。实验结果表明,SEAlign以最少的训练开销实现了最先进的性能。此外,我们使用SEAlign开发了一个基于代理的软件开发平台,成功自动化创建了几个小型应用程序。人类对这些应用程序的评估突显了任务性能和
资源推荐
资源详情
资源评论































原论文:https://arxiv.org/pdf/2503.18455
SEAlign: 面向软件工程代理的对齐训练
张可奇†, 张黄昭, 李哥† , 尤金良†, 李佳†, 赵云飞†, 金志†
摘要
近年来,代码生成模型在自动化软件开发任务方面展示了令人印象深刻的性能,但在现实
世界的软件工程场景中仍面临挑战。尽管当前的训练方法,特别是后训练,在解决竞争性
编程问题方面表现出色,但它们未能充分准备模型以应对实际软件开发的复杂性。这种错
位提出了一个关键问题:现有的对齐训练方法是否适合现实世界的软件工程任务?在本研
究中,我们确定了这一问题,并提出了SEAlign,这是一种新颖的对齐框架,旨在弥合代
码生成模型与现实世界软件开发任务之间的差距。SEAlign利用软件工程过程的独特特征
(包括高质量的工作流步骤)来增强模型能力。我们的框架进一步采用蒙特卡洛树搜索(
MCTS)进行多步决策过程的细粒度对齐,并通过偏好优化关键动作确保模型满足现实需
求。我们在三个标准的现实世界软件工程基准上评估了SEAlign,包括HumanEvalFix、S
WE-Bench-Lite和SWE-Bench-
Verified。实验结果表明,SEAlign以最少的训练开销实现了最先进的性能。此外,我们使
用SEAlign开发了一个基于代理的软件开发平台,成功自动化创建了几个小型应用程序。
人类对这些应用程序的评估突显了任务性能和用户体验方面的显著改进。我们的发现强调
了SEAlign加速大型代码模型在现实世界软件开发中应用的潜力。我们相信这项研究为实
现完全自动化的软件工程迈出了有意义的一步。
1
1 引言
代码生成已成为人工智能领域的一个关键方向,模型在自动化重要软件开发任务和显著提
升开发者生产力方面发挥了重要作用。最近的代码模型进展(如GPT-4 (GPT-4 2023) ,
LLaMA (LLaMA 2023) , 和DeepSeekCoder (郭等 2024)
)展现了生成功能性和高效代码的强大能力。这些模型极大地提高了各种代码相关任务的
自动化水平,使软件开发更加高效。
当前的代码生成模型,即大型语言模型(LLMs),通常遵循两阶段训练过程:预训练,
其中模型学习编程语言的基础知识和基础技能;以及后训练,其中模型学习遵循特定指令
并与人类行为和偏好对齐。最近针对代码模型的对齐训练技术,如CodeDPO
(张克奇,李哥,董义宏等 2024) 和LIMO (叶等 2025)
已被证明非常有效,在某些情况下只需少量数据和计算资源即可实现显著改进。然而,现
有代码生成模型的后训练阶段主要集中在解决来自LeetCode (LeetCode 2018)
和Codeforces (Codeforces 2009) 等平台的竞争性编程竞赛问题——
算法问题与现实世界软件开发场景之间存在显著差距。实际软件工程需要综合多种技能,
包括从复杂存储库中检索信息和灵活应用现有算法到当前代码上下文等,但现有的后训练

解决方案往往表现不佳。弥合这一差距对于加速代码模型在软件开发自动化中的应用至关
重要。
尽管模型能力快速进步,在竞争性编码基准测试中超越了大多数人类程序员,但正如上述
所示,这些模型在现实世界软件开发场景中常常遇到困难。例如,SWE-bench
(Jimenez等 2023)
模拟了现实世界的问题修复场景,显示许多开源代码模型的表现不如人意。这一差异引发
了一个重要问题:当前的代码模型训练方案(特别是后训练技术)是否能够使模型与现实
世界软件开发所需的技能对齐?为了简明扼要地回答这个问题,我们进行了初步调查,评
估了Qwen2.5-Coder-Instruct-14B (惠等 2024)
(一种经过广泛后训练的强大代码模型)和Openhands (王等 2024)
(一种流行的代理框架)在SWE-Bench-Lite (Jimenez等 2023)
(模拟现实世界软件工程任务的基准)上的表现。实验结果显示,该模型只能解决基准中
的3.7%的问题。深入分析失败案例后,我们发现模型的主要问题是指令跟随能力差、工
具选择和使用不正确以及无限代理循环(详见第 3.2
节的更多分析)。我们的初步调查结果直接表明,现有的后训练方法未能充分准备模型以
应对软件工程任务的复杂性,尤其是在代理框架内。
为了解决这一问题,我们提出了 SEAlign
,这是一个新颖的框架,旨在将代码模型与现实世界的软件开发代理工作流对齐。SEAli
gn专注于软件工程的独特特性,增强了模型处理复杂任务的能力。总体而言,SEAlign通
过在现实任务下微调模型,使其能够正确遵循指令并正确使用开发工具。具体来说,我们
收集了高质量的软件开发代理轨迹样本(即决策过程),识别了工作流中的关键行动步骤
,并通过对齐强制模型产生“良好”行为。SEAlign使用蒙特卡洛树搜索(MCTS)为这些
多步决策过程提供详细评分和对齐,随后通过偏好优化确保模型满足现实需求。
我们在三个标准的现实世界软件工程任务基准上评估了SEAlign:HumanEvalFix (
HumanEvalFix? ) , SWE-Bench-Lite, 和 SWE-Bench-Verified (OpenAI 2024)
。实验结果表明,SEAlign以最小的训练开销实现了最先进的性能。使用140亿参数模型
,我们在 SWE-Bench-Lite 和 SWE-Bench-Verified 上分别达到了 17.7% 和 21.8%
的解决率。这一表现代表了在开源方法中具有相似参数规模模型的最佳结果。此外,SE
Align仅需数百个优化训练样本即可达到与几种商业产品相当的性能,突显了其效率和实
用性。受OpenHands (王等 2024)
等项目的启发,我们还使用SEAlign构建了一个基于代理的软件开发平台,已成功自动化
创建了多个简单应用程序。人类对这些构建的应用程序的评价表明,有效性和用户体验均
显著提高,突显了SEAlign加速软件自动化开发的潜力。
我们的工作的主要贡献如下:
� 我们对现有的代码生成模型进行了全面分析,揭示了现有训练方法与现实世界软件
开发代理任务要求之间的显著错位问题。

� 我们提出了一种专门设计用于现实世界软件工程代理工作流的新型对齐框架,即S
EAlign。它采用细粒度对齐方法,利用MCTS进行多步过程对齐,并通过偏好优化
与现实需求对齐。
� 我们在三个标准的现实世界软件工程代理基准上进行了实验,即HumanEvalFix、
SWE-Bench-Lite和SWE-Bench-
Verified,展示了SEAlign在最小训练开销下的最先进性能。
SEAlign使代码模型能够理解和使用现有的软件工程代理工作流,使得完全自动化的软件
开发变得更为可行。希望这项研究能够启发后续的研究人员,并为最终目标的实现做出贡
献。
2 相关工作
2.1 大型语言模型用于代码
代码生成是指模型根据自然语言(NL)描述生成源代码片段,近年来成为研究热点
(黄昭章等 2024)
。LLMs在此领域展现出卓越能力,这归因于其在多样化数据集上的广泛训练
(Lozhkov等 2024)
。这些模型通常通过监督微调(SFT)进一步优化,以最大化其编码潜力和其他能力
(张盛宇等 2023)
。鉴于为SFT收集高质量训练数据的挑战,研究人员越来越多地转向自指导方法。在这些
技术中,最强大的LLMs被用来合成指令数据 (王义忠等 2022; Luo等 2023; Wei等 2023)
。例如,Evol-Instruct (Luo等 2023) 使用复杂提示来提高合成数据的质量。而OSS-
instruct (Wei等 2023) 则利用真实代码片段来增强生成数据的相关性和实用性。
预训练阶段赋予LLMs优秀的语言和编程能力,而SFT阶段使它们能够遵循指令并完成一
系列下游任务。研究表明,LLMs在竞争性编程基准测试中已达到人类水平的性能 (李等
2022; OpenAI-o3 2024) ,例如HumanEval (陈等 2021) 和LiveCodeBench (Jain等
2024) 。为了掌握源自现实场景的更复杂任务,引入了后训练技术。
2.2 代码模型的对齐后训练
虽然预训练使代码模型具备了编程基础,SFT提升了它们的指令跟随能力,但后训练技术
适应模型以在多样和复杂的场景中表现良好 (Kumar等 2025)
。最近的研究越来越强调对齐训练在塑造模型性能和用户体验中的关键作用,ChatGPT
和DeepSeek-R1等模型便是例证 (Guo等 2025)
。在代码领域,对齐训练仍处于起步阶段。Code-Optimise (Gee等 2024) 、CodeDPO
(张克奇,李哥,董义宏等 2024) 和PLUM (张迪等 2024)
从简单的编程问题构建后训练数据集,并使代码模型在这些竞争性编程任务中表现优异。
然而,这些方法集中于解决来自LeetCode和Codeforces等平台的算法问题。虽然有价值
,但它们并未完全捕捉到现实世界软件开发中存在的复杂性。除了编写算法代码外,实际

软件工程还需要更广泛的技能,例如导航复杂代码库、调整和重写代码片段以适应特定上
下文以及重构软件架构 (张克奇,李哥,李佳等 2024; Jimenez等 2023)
。竞争性编程与现实世界软件开发之间的这种差距凸显了需要更全面的对齐训练方法,以
适应实际软件工程代理工作流。
3 动机示例
现有代码模型和代理框架中观察到的错位案例。
我们通过一个动机示例来详细说明当前LLMs在代码中的错位问题。尽管它们在算法代码
生成方面表现出色,LLMs在模拟现实场景的基准测试中仍面临挑战。
3.1 代码代理与代理任务
LLMs在各种代码相关任务中表现出色,例如代码补全、代码总结和代码生成
(Allamanis等 2018)
。然而,它们大多可以被视为独立任务,因为LLMs被评估为解决简单问题,无需外部知
识或与环境交互。以竞争性编程为例,所需的算法代码片段通常较短且独立于其他库或包
。
相反,在现实世界中,开发人员通常在特定代码环境中处理不同的软件工程任务
(张克奇,李哥,李佳等 2024)
。他们需要基于现有上下文扩展功能,定位和修复运行时错误,以及审查他人的代码提交
等。所有这些复杂任务都需要导航大型代码库、理解软件架构并生成上下文适当的代码片
段的能力。显然不可能将整个代码库输入LLMs,因为这会超出其最大上下文和计算限制
。

其中,整个轨迹通常非常长,反映了现实世界软件工程任务的复杂性。此外,现实世界代
码项目表现出高度的多样性和上下文依赖性。这种复杂性给构建数据集和训练LLM带来了
重大挑战,使其难以在不同复杂场景中泛化。
3.2 因错位导致的失败
在介绍了代理框架并定义了轨迹之后,我们进行了初步实验,展示了现有LLMs在代码中
的错位问题,并进一步分析了其失败案例。具体来说,我们采用了Qwen2.5-Coder-
Instruct-14B (惠等 2024) 作为代码模型和Openhands (王星耀,李博等 2024)
作为代理框架。我们在SWE-Bench-Lite基准 (Jimenez等 2023)
上评估了构建的代理。令我们震惊的是,该代理只能解决基准中的3.7%的问题。深入分
析失败案例(如图 1
所示),我们发现其中一个主要原因是基础LLM很难跟随代理框架的复杂指令。此外,L
LM在工具调用过程中经常失败(例如,选择错误工具或错误使用工具),并陷入动作循
环(例如,无限重复某一动作)。我们分析了这三个主要原因如下。
代理框架中的提示通常较为复杂。由于现实任务的难度,提示通常包含额外信息,如输出
约束(图 1 中的第一个问题)和工作流阶段(图 1
中的第二个问题)等。尽管现有的已对齐代码模型在独立任务中表现良好,但它们经常误
解这些复杂提示或多步指令,这些指令需要理解上下文、导航代码库或调用外部工具。这
一局限性突出表明,它们在训练期间的目标与实际软件工程任务的需求之间存在关键差距
。
剩余25页未读,继续阅读
资源评论


Paper易论
- 粉丝: 5344
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 软件项目评审流程.doc
- 基于项目管理方法的技术创新管理.doc
- 古代通信和现代通信教育课件.ppt
- 网络运营实习总结与收获.docx
- 综合布线培训教程.ppt
- 项目管理与管理创新.ppt
- 网络营销与策划实训计划.doc
- 职高常用工具软件项目教程有答案.docx
- 云计算论文:基于消费者均衡和帕累托最优的云计算资源分配策略研究.doc
- 非常权威的弱电项目管理资料.doc
- 星巴克网络营销案例分析[001].ppt
- 基于云计算的电子政务公共平台.doc
- 中国矿业大学计算机网络与安全实践设计报告.doc
- 直线滑台的交流伺服电机PLC控制及人机界面设计毕业设计.doc
- 基于网络环境下的信息技术教学模式的探索与实践研究.doc
- 天大网络与信息检索课件第一讲绪论.ppt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
