直播预约 | 如何让LLM通过RL又好又准地使用工具?

主题

RL is All Tool Learning Need

时间

2025.4.27 10:30 北京时间

大纲

  • ToolRL: Reward is All Tool Learning Needs

  • OTC: Optimal Tool Calls via Reinforcement Learning

两篇文章共同解决了:如何让大语言模型通过强化学习又好又准地使用工具?

  • ToolRL 解决的是通过强化学习教会模型如何使用工具(如何“好”):我们提出了一整套基于强化学习的奖励设计,帮助模型学会在多步任务中正确、灵活地选择并调用工具。

  • OTC-PO 则进一步解决教会模型如何少用、精用工具(如何“准”):我们引入效率权重奖励,让模型在保证正确率的前提下,主动权衡工具调用的收益与代价,实现工具使用的高效性与成本控制。

二者构成一前一后的闭环:前者建立能力寻找最优奖励,后者约束行为探索最优效率,合力推动构建更强、更省、更“懂事”的 AI 工具使用智能体。

嘉宾与内容介绍

ToolRL: Reward is All Tool Learning Needs

当前大语言模型在使用工具时大多依赖人工标注的监督微调,但这种方式难以应对复杂的工具使用场景。本文提出一种全新的训练范式——ToolRL,首次系统性地探索如何为“工具选择与使用”任务设计强化学习中的奖励函数。研究团队基于这一奖励设计,采用了改进版的策略优化算法 GRPO,对模型进行训练,效果显著提升。这项工作不仅提升了模型的泛化能力,还让语言模型展现出更强的主动性和元认知能力,为未来更智能的人工智能体训练奠定了重要基础。

ToolRL:开创工具调用RL Reward新范式,性能/泛化/效率/推理迎来全面质变

链接: https://arxiv.org/abs/2504.13958

钱成,目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。本科就读于清华大学,导师为刘知远教授。目前工作集中在大语言模型工具使用与推理,以及人工智能体方向。曾在 ACL,EMNLP,COLM,COLING,NAACL,ICLR 等多个学术会议发表论文十余篇,一作及共一论文十余篇,谷歌学术引用超 500,现担任 ACL Area Chair,以及 AAAI,EMNLP,COLM 等多个会议 Reviewer。谷歌学术: https://scholar.google.com/citations?user=p2bY7oAAAAAJ&hl=en,个人主页:https://qiancheng0.github.io

OTC: Optimal Tool Calls via Reinforcement Learning

不同模型面对不同问题的时候,存在最优的工具调用次数,即最少的工具调用来回答问题。而当前RL仅仅针对最终答案进行优化,忽略了大模型在工具交互过程中的行为。我们首次提出基于最优工具调用的强化学习算法,使得模型最大程度保持正确率的同时,极大地提高工具的使用效率。具体来说,我们是第一个关注大模型在强化学习中工具使用行为尤其是工具推理效率的工作;第一个提出工具生产力的概念,使得模型不仅仅关注收益,并且关注工具调用成本;第一个观测到大模型的认知卸载现象,即模型越大,越倾向于使用外部工具,从而损坏或者浪费自身的推理能力。我们的方法简单,高效,通用,泛化能力强。最小化外部工具调用就是最大化激发模型的内在推理能力,从而让模型学会仅仅在必要的时候使用外部工具并且由于更强的推理能力从而更好的使用外部工具。简单来说,OTC-PO = 少查工具 + 多用脑子 + 多用脑子查工具。

链接: https://arxiv.org/pdf/2504.14870

王鸿儒,目前就读于香港中文大学博士四年级,导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校访问学者,在国际顶级会议如NeurIPS, ACL, EMNLP, NAACL, COLING等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC等,谷歌学术引用超600次,NeurIPS Area Chair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL 2024@SIGHAN 最佳论文奖,WWW2024 Online Safety Prize Challenge冠军等多项荣誉,并在SIGIR 2024组织第一届Tool Learning研讨会,研究获得过TBF, OSCP等多项研究基金支撑,参与多项香港GRF, RGC等项目。个人主页:https://rulegreen.github.io/

入群

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(NLP Academic Exchange Platform)成立于2023.11.26,由国内外高校一线青年教师和学生共同组织。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。至今已举办近80场分享、嘉宾150+人、全网拥有粉丝量10+万,b站和视频号一共大约20万播放量。详情见:
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值