
LLM RL
文章平均质量分 78
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
原创 2025-05-11 09:30:00 · 101 阅读 · 0 评论 -
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
原创 2025-05-09 09:30:00 · 135 阅读 · 0 评论 -
Inference-Time Scaling for Generalist Reward Modeling
强化学习(RL)已大规模应用于大语言模型(LLMs)的后训练。最近,通过RL激励LLMs的推理能力表明,合适的学习方法可以实现有效的推理时可扩展性。RL的一个关键挑战是为LLMs在各种领域(超出可验证问题或人工规则)中获得准确的奖励信号。在这项工作中,我们研究如何通过更多的推理计算来改进通用查询的奖励建模(RM),即通用RM的推理时可扩展性,以及如何通过合适的学习方法提高性能 - 计算缩放的有效性。对于RM方法,我们采用点向生成式奖励建模(GRM),以实现对不同输入类型的灵活性和推理时缩放的潜力。原创 2025-05-07 09:30:00 · 241 阅读 · 0 评论 -
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
我们介绍Open-Reasoner-Zero(ORZ),这是首个聚焦可扩展性、简单性和可访问性的大规模推理导向强化学习(RL)训练的开源实现。通过大量实验,我们证明了一种极简方法——使用广义优势估计(GAE,λ=1,γ=1)的朴素近端策略优化(PPO)算法,结合简单的基于规则的奖励函数(无需任何KL正则化)——足以扩展响应长度和基准性能,这与DeepSeek-R1-Zero中观察到的现象类似。原创 2025-04-14 08:30:00 · 335 阅读 · 0 评论 -
WHEN DEBATE FAILS: BIAS REINFORCEMENT IN LARGE LANGUAGE MODELS
本文研究了大型语言模型(LLMs)在战略决策任务中存在的偏见强化问题,指出传统自我修正方法(如自我一致性和自我精炼)及多智能体辩论(MAD)的局限性。偏见强化现象:LLMs在辩论中倾向于放大固有偏见而非纠正错误,导致次优决策。视角单一性:现有MAD框架依赖同一模型的多个实例,缺乏真正的视角多样性。MetaNIM Arena基准:设计了一个基于组合博弈论的严格评估环境,用于量化LLMs的战略推理能力。DReaMAD框架。原创 2025-04-10 09:30:00 · 105 阅读 · 0 评论 -
Visual-RFT: Visual Reinforcement Fine-Tuning
强化微调(RFT)在像OpenAI o1这样的大型推理模型中,通过对答案的反馈进行学习,这在微调数据稀缺的应用中尤为有用。最近的开源工作如DeepSeek R1表明,使用可验证奖励的强化学习是复现o1的一个关键方向。虽然R1风格的模型在语言模型中取得了成功,但其在多模态领域的应用仍未得到充分探索。本文引入了视觉强化微调(Visual-RFT),进一步扩展了RFT在视觉任务上的应用领域。原创 2025-03-15 08:30:00 · 217 阅读 · 0 评论 -
Self-rewarding correction for mathematical reasoning
我们研究了具有自奖励推理能力的大语言模型(LLMs),这类模型能够在推理时,在没有外部反馈的情况下,逐步生成推理过程,并评估输出的正确性。这种一体化的方法,使单个模型能够独立地引导其推理过程,为模型部署带来了计算优势。我们特别关注自我修正这一具有代表性的任务,在这个任务中,模型能够自主检测其回答中的错误、修改输出,并决定何时终止迭代优化循环。为了实现这一目标,我们提出了一种两阶段算法框架,仅使用模型自身生成的数据,构建具有自奖励推理能力的模型。原创 2025-03-12 11:00:00 · 140 阅读 · 0 评论 -
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
最近DeepSeek-R1的发布展示了强化学习(RL)在提升大语言模型(LLMs)通用推理能力方面的巨大潜力。虽然DeepSeek-R1及后续工作主要聚焦于将RL应用于竞赛编程和数学问题,但本文介绍了SWE-RL,这是第一种将基于RL的LLM推理扩展到实际软件工程中的方法。原创 2025-03-12 09:30:00 · 171 阅读 · 0 评论 -
The Differences Between Direct Alignment Algorithms are a Blur
直接对齐算法(DAAs)通过用直接策略优化取代人类反馈强化学习(RLHF)中的强化学习(RL)和奖励建模(RM)来简化语言模型对齐。DAA可以根据其排名损失(成对与逐点)、这些损失中使用的奖励(例如,政策和参考政策的似然比或比值比)或是否需要监督微调(SFT)阶段(两阶段与一阶段)进行分类。我们首先证明了单阶段方法不如两阶段方法。为了解决这个问题,我们引入了一个显式的SFT阶段,并在单级ORPO和ASFT中引入了控制偏好优化强度的β参数。原创 2025-02-19 10:00:00 · 313 阅读 · 0 评论 -
Online Preference-based Reinforcement Learning with Self-augmented Feedback from LLM
基于偏好的强化学习(PbRL)提供了一种强大的范式,通过学习基于人类偏好的奖励来避免细致的奖励工程。然而,在在线任务中很难获得实时的人工反馈。大多数工作都假设有一个“脚本式教师”,利用特权预定义的奖励来提供偏好反馈。在这篇论文中,我们提出了一种RL自增强大语言模型反馈(RL-SaLLM-F)技术,该技术不依赖于在线PbRL的特权信息。RL-SaLLM-F利用LLM的反射和辨别能力来生成自增强轨迹,并为奖励学习提供偏好标签。原创 2025-02-04 09:00:00 · 137 阅读 · 0 评论 -
Reinforcement Learning Enhanced LLMs: A Survey
本文调查了通过强化学习(RL)增强大型语言模型(LLM)这一快速增长领域的研究,强化学习是一种技术,它使LLM能够通过根据其输出质量以奖励形式接收反馈来提高其性能,从而使其能够生成更准确、连贯和符合上下文的响应。在这项工作中,我们对RLenhanced LLM的最新知识状态进行了系统回顾,试图巩固和分析该领域快速增长的研究,帮助研究人员了解当前的挑战和进展。具体来说,我们(1)详细介绍了强化学习的基础知识;(2) 引入流行的强化学习LLM;原创 2025-01-25 09:15:00 · 232 阅读 · 0 评论 -
Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models
对齐,赋予预训练的大型语言模型(LLM)遵循指令的能力,对其现实世界的应用至关重要。传统的监督微调(SFT)方法将其形式化为因果语言建模,通常具有交叉熵目标,需要大量高质量的指令-响应对。然而,由于在实践中创建和维护成本高、劳动密集,广泛使用的SFT数据集的质量无法得到保证。为了克服与SFT数据集质量相关的局限性,我们引入了一种新的面向偏好的监督微调方法,即PoFT。直觉是通过施加特定的偏好来提高SFT:在相同的SFT数据上,更喜欢目标模型而不是对齐的LLM。原创 2025-01-18 10:15:00 · 241 阅读 · 0 评论 -
Offline Regularised Reinforcement Learning for Large Language Models Alignment
无论是通过人类反馈的强化学习还是直接偏好优化,大语言模型(LLM)对齐的主要框架都是从偏好数据中学习。这涉及构建数据集,其中每个元素都是由提示、两个独立响应(提示的完成)以及两个独立响应之间的人类偏好组成的四元组,从而产生首选和不首选的响应。此类数据通常稀缺且收集成本昂贵。另一方面,每个元素都是由提示、响应和人类反馈组成的三元组的单轨迹数据集自然更加丰富。例如,此类数据集的规范元素是LLM对用户提示的响应,然后是用户的反馈,例如赞成/反对。原创 2024-12-08 10:15:00 · 191 阅读 · 0 评论 -
Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement
通用人工智能的一个长期目标是高度能干的通才,他们可以从不同的经验中学习,并归纳到看不见的任务中。语言和视觉社区通过扩大在大规模数据集上训练的基于Transformer的模型,在这一趋势上取得了显著进展,而强化学习(RL)代理在这种范式下仍然存在泛化能力差的问题。为了应对这一挑战,我们提出了元决策Transformer(Meta DT),它利用Transformer架构的顺序建模能力和通过世界模型解纠缠进行的鲁棒任务表示学习,在离线元RL中实现了高效的泛化。原创 2024-10-22 10:35:59 · 183 阅读 · 1 评论 -
β-DPO: Direct Preference Optimization with Dynamic β
直接偏好优化 (DPO) 已成为训练大型语言模型 (LLM) 以符合人类偏好的一种引人注目的方法。但是,DPO 的性能对其权衡参数β的微调以及首选项数据的质量很敏感。我们分析了β和数据质量对 DPO 的影响,发现最佳 β 值随成对数据的信息量而变化。为了解决静态β值的局限性,我们引入了一种新的框架,该框架可以根据数据质量考虑在批次级别动态校准β。此外,我们的方法结合了β引导的数据过滤,以防止异常值的影响。原创 2024-10-05 11:15:00 · 267 阅读 · 0 评论 -
Imitating Language via Scalable Inverse Reinforcement Learning
大多数语言模型训练都建立在模仿学习的基础上。它涵盖了预训练、监督微调,并影响了从人类反馈进行强化学习 (RLHF) 的起始条件。用于下一个token预测的最大似然估计 (MLE) 的简单性和可扩展性使其成为主导范式。然而,更广泛的模仿学习领域可以更有效地利用自回归生成的基础顺序结构。我们专注于研究逆向强化学习 (IRL) 对模仿的看法,提取奖励并直接优化序列而不是单个token的可能性,并评估其对微调大型语言模型的好处。我们提供了一个新角度,将逆软 Q 学习重新表述为 MLE 的时间差异正则化扩展。原创 2024-09-18 11:26:31 · 183 阅读 · 0 评论 -
KNOWLEDGEABLE AGENTS BY OFFLINE REINFORCEMENT LEARNING FROM LARGE LANGUAGE MODEL ROLLOUTS
强化学习(RL)训练智能体通过环境交互数据完成复杂任务,但其能力也受到可用数据范围的限制。为了获得知识渊博的代理,一种有前景的方法是利用大型语言模型(LLM)的知识。尽管之前的研究将LLM与RL相结合,但由于语义差距,这两个组件的无缝集成仍然具有挑战性。本文介绍了一种新方法,即语言模型展开中的知识代理(KALM),该方法以虚拟展开的形式从LLM中提取知识,代理可以通过离线强化学习方法轻松学习。KALM的主要挑战在于LLM的基础,因为LLM本质上仅限于文本数据,而环境数据通常包含LLM看不到的数值向量。原创 2024-08-07 20:15:13 · 186 阅读 · 0 评论 -
Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods
凭借广泛的预训练知识和高级通用能力,大型语言模型(LLM)成为在多任务学习、样本效率和任务规划等方面增强强化学习(RL)的有前景的途径。在这项调查中,我们全面回顾了LLM增强RL的现有文献,并总结了其与传统RL方法相比的特点,旨在阐明未来研究的研究范围和方向。利用经典的代理-环境交互范式,我们提出了一种结构化的分类法,对RL中LLM的功能进行系统分类,包括四个角色:信息处理器、奖励设计者、决策者和生成器。此外,对于每个角色,我们总结了方法论,分析了缓解的具体强化学习挑战,并提供了对未来方向的见解。原创 2024-07-22 16:18:43 · 573 阅读 · 0 评论 -
Harnessing Discrete Representations for Continual Reinforcement Learning
强化学习(RL)代理只使用来自环境的观察来做出决策,因此严重依赖于这些观察的表示。尽管最近的一些突破使用了基于向量的观测分类表示,通常称为离散表示,但很少有工作明确评估这种选择的重要性。在这项工作中,我们对离散表示在世界模型学习、无模型强化学习以及最终的连续强化学习问题中的优势进行了实证研究,我们发现离散表示的影响最大。我们发现,与传统的连续表示相比,在离散表示上学习的世界模型能够以较小的容量准确地模拟更大比例的状态空间,并且用离散表示训练的代理可以用较少的数据学习更好的策略。原创 2024-07-18 15:08:43 · 367 阅读 · 0 评论 -
SRLM: Human-in-Loop Interactive Social Robot Navigation with Large Language Model
交互式社交机器人助手必须在复杂和拥挤的空间中提供服务,同时根据实时人类语言命令或反馈调整其行为。在本文中,我们提出了一种新的混合方法,称为社交机器人规划器(SRLM),它集成了大型语言模型(LLM)和深度强化学习(DRL),以在充满人的公共空间中导航并提供多种社会服务。SRLM实时从人在环命令中推断全局规划,并将社会信息编码到基于LLM的大型导航模型(LNM)中,用于低级运动执行。原创 2024-07-11 15:40:03 · 127 阅读 · 0 评论 -
Can Large Language Models Play Games? A Case Study of A Self-Play Approach
大型语言模型(LLM)利用来自互联网的大量数据,存储广泛的先验知识。虽然LLM已被证明是有益的决策辅助工具,但它们的可靠性受到推理、幻觉现象等方面的限制。另一方面,蒙特卡罗树搜索(MCTS)是一种启发式搜索算法,通过递归推出和自玩来提供可靠的决策解决方案。然而,MCTS的有效性在很大程度上依赖于启发式修剪和外部价值函数,尤其是在复杂的决策场景中。这项工作引入了一种创新的方法,该方法通过MCTS自玩来支持LLM,以有效地解决基于回合的零和游戏(DTZG),如国际象棋和围棋,而不需要额外的训练。原创 2024-06-27 22:02:03 · 10842 阅读 · 0 评论 -
Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation
大型语言模型(LLM)正在成为增强基于会话的推荐(SBR)的有前途的方法,其中基于提示和基于微调的方法都已被广泛研究,以使LLM与SBR保持一致。然而,由于缺乏特定任务的反馈,前一种方法难以获得最佳提示来引出LLM的正确推理,导致推荐不令人满意。尽管后一种方法试图利用特定领域的知识对LLM进行微调,但它们面临着计算成本高和依赖开源主干网等限制。为了解决这些问题,我们提出了一个用于SBR的反射强化大语言模型(Re2LLM),指导LLM专注于更准确、更高效的建议所必需的专业知识。原创 2024-06-26 14:26:47 · 112 阅读 · 0 评论 -
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
随着上下文内学习范式在大规模语言和计算机视觉模型中的成功,最近出现的上下文内强化学习领域正在经历快速增长。然而,由于缺乏具有挑战性的基准,它的开发受到了阻碍,因为所有实验都是在简单的环境和小规模的数据集上进行的。我们提出了XLand-100B,这是一个基于XLand-MiniGrid环境的大规模上下文强化学习数据集,作为缓解这一问题的第一步。它包含了近3万个不同任务的完整学习历史,涵盖了100B的过渡和2.5B的情节。收集数据集需要5万个GPU小时,这超出了大多数学术实验室的能力范围。原创 2024-06-25 16:20:28 · 95 阅读 · 0 评论 -
RLHF Workflow: From Reward Modeling to Online RLHF
我们在本技术报告中介绍了从人类反馈中进行在线迭代强化学习(RLHF)的工作流程,在最近的大型语言模型(LLM)文献中,该技术被广泛报道为大大优于离线学习。然而,现有的开源RLHF项目在很大程度上仍然局限于离线学习环境。在本技术报告中,我们旨在填补这一空白,并提供一个易于复制的在线迭代RLHF的详细脚本。特别是,由于在线人类反馈对于资源有限的开源社区来说通常是不可行的,我们首先使用一组不同的开源数据集构建偏好模型,并使用构建的代理偏好模型来近似人类反馈。原创 2024-05-22 11:32:22 · 323 阅读 · 0 评论 -
Using Large Language Models to Automate and Expedite Reinforcement Learning with Reward Machine
我们提出了LARL-RM(Large language modelgenerated Automaton for Reinforcement Learning with Reward Machine)算法,以使用自动机将高级知识编码到强化学习中,从而加快强化学习。我们的方法使用大型语言模型(LLM)使用提示工程来获得高级领域特定知识,而不是直接向强化学习算法提供高级知识,这需要专家对自动机进行编码。我们使用思想链和小样本方法进行提示工程,并证明我们的方法使用这些方法是有效的。原创 2024-04-06 10:00:01 · 122 阅读 · 0 评论 -
Active Preference Learning for Large Language Models
随着大型语言模型(LLM)的能力越来越强,用于与人类意图保持一致的微调技术变得越来越重要。调整这些模型的一个关键考虑因素是如何最有效地使用人力资源,或者在LLM本身被用作预言机的情况下对资源进行建模。从人类或人工智能偏好进行强化学习(RLHF/RLAIF)是这种技术最突出的例子,但它很复杂,而且往往不稳定。直接偏好优化(DPO)最近被提出作为一种更简单、更稳定的替代方案。在这项工作中,我们为DPO开发了一种主动学习策略,以更好地利用偏好标签。原创 2024-04-05 13:59:57 · 94 阅读 · 0 评论 -
REVIEWING SYNERGIES BETWEEN REINFORCEMENT LEARNING AND LARGE LANGUAGE MODELS
在这项工作中,我们回顾了将强化学习(RL)和大型语言模型(LLM)相结合的研究,这两个领域的发展势头归功于深度神经网络的发展。基于这两种模型类型相互作用的方式,我们提出了一种新的三个主要类的分类法。第一类RL4LLM包括利用RL来提高LLM在与自然语言处理相关的任务中的性能的研究。RL4LLM分为两个子类,这取决于RL是用于直接微调现有LLM还是用于改进LLM的提示。在第二类LLM4RL中,LLM帮助训练RL模型,该模型执行与自然语言无关的任务。原创 2024-04-01 18:04:07 · 460 阅读 · 0 评论 -
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
在本文中,我们提出了R3R^3R3:通过反向课程强化学习进行学习推理(RL),这是一种仅使用结果监督来实现大型语言模型过程监督的新方法。将RL应用于复杂推理的核心挑战是确定一系列能产生积极回报的行动,并为优化提供适当的监督。结果监督在不识别错误位置的情况下为最终结果提供稀疏的奖励,而过程监督提供逐步奖励,但需要大量的手动注释。R3R^3R3通过从正确的演示中学习克服了这些限制。具体地说,R3R^3R3将推理的开始状态从演示的结束逐渐滑动到开始,有助于在所有阶段更容易地进行模型探索。原创 2024-03-20 10:36:42 · 253 阅读 · 0 评论 -
Secrets of RLHF in Large Language Models Part II: Reward Modeling
从人类反馈中强化学习(RLHF)已成为将语言模型与人类价值观和意图相一致的关键技术,使模型能够产生更有益和无害的反应。奖励模型被训练为人类偏好的代理,以驱动强化学习优化。虽然奖励模型通常被认为是实现高性能的核心,但它们在实际应用中面临以下挑战:(1)数据集中不正确和模糊的偏好对可能会阻碍奖励模型准确捕捉人类意图。(2) 根据特定分布的数据训练的奖励模型通常难以推广到该分布之外的示例,并且不适合迭代RLHF训练。在本报告中,我们试图解决这两个问题。原创 2024-02-28 16:16:03 · 599 阅读 · 0 评论