RT-Grasp:通过多模态大语言模型推理调优机器人抓取

24年11月来自Rutgers大学和百度美研的论文“RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model”。

大语言模型 (LLM) 的最新进展展示了其卓越的推理能力,使其在各个领域都具有影响力。然而,在机器人技术领域,由于其固有的文本输出,它们的使用主要限于操作规划任务。本文研究采用 LLM 的推理能力在机器人任务(特别是机器人抓取)中生成数值预测的潜力来解决这一限制。推理调优(Reasoning Tuning),在训练期间预测之前,将推理阶段集成进来,利用 LLM 的广泛先验知识和高级推理能力。这种方法使 LLM(尤其是具有多模态能力的 LLM)能够生成准确的数值输出,例如具有上下文感知和可通过对话进行调优的抓取姿势。此外,还提供了推理调优 VLM Grasp 数据集,该数据集经过精心挑选,以促进 LLM 适应机器人抓取。对抓取数据集和真实世界实验的广泛验证,强调多模态 LLM 对机器人数值预测任务的适应性。这不仅扩大了它们的适用性,而且还弥合了基于文本的规划和直接机器人控制之间的差距,从而最大限度地发挥 LLM 在机器人技术方面的潜力。

如图所示比较三种机器人抓取方法:1) 传统的基于 CNN 的算法产生固定姿态,在实际情况中缺乏适应性。2) 多模型 LLM 输出适应性抓取策略,但缺乏精确的数值预测。3) 本文算法结合两者的优点,通过合理的策略预测可适应的数值抓取。

请添加图片描述

机器人抓取

传统上,机器人抓取严重依赖于分析方法 [10]、[11]、[12]。这些方法主要侧重于理解目标的几何形状或分析接触力,以确定优化稳定性的抓取方法。然而,这些技术通常很难很好地推广到未见过的目标,并且在面对形状不规则的目标时可能会失败。

近年来,数据驱动的方法,特别是利用卷积神经网络 (CNN) 的方法,已经显示出有希望的结果 [13]、[14]、[15]、[

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值