24年11月来自Rutgers大学和百度美研的论文“RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model”。
大语言模型 (LLM) 的最新进展展示了其卓越的推理能力,使其在各个领域都具有影响力。然而,在机器人技术领域,由于其固有的文本输出,它们的使用主要限于操作规划任务。本文研究采用 LLM 的推理能力在机器人任务(特别是机器人抓取)中生成数值预测的潜力来解决这一限制。推理调优(Reasoning Tuning),在训练期间预测之前,将推理阶段集成进来,利用 LLM 的广泛先验知识和高级推理能力。这种方法使 LLM(尤其是具有多模态能力的 LLM)能够生成准确的数值输出,例如具有上下文感知和可通过对话进行调优的抓取姿势。此外,还提供了推理调优 VLM Grasp 数据集,该数据集经过精心挑选,以促进 LLM 适应机器人抓取。对抓取数据集和真实世界实验的广泛验证,强调多模态 LLM 对机器人数值预测任务的适应性。这不仅扩大了它们的适用性,而且还弥合了基于文本的规划和直接机器人控制之间的差距,从而最大限度地发挥 LLM 在机器人技术方面的潜力。
如图所示比较三种机器人抓取方法:1) 传统的基于 CNN 的算法产生固定姿态,在实际情况中缺乏适应性。2) 多模型 LLM 输出适应性抓取策略,但缺乏精确的数值预测。3) 本文算法结合两者的优点,通过合理的策略预测可适应的数值抓取。
机器人抓取
传统上,机器人抓取严重依赖于分析方法 [10]、[11]、[12]。这些方法主要侧重于理解目标的几何形状或分析接触力,以确定优化稳定性的抓取方法。然而,这些技术通常很难很好地推广到未见过的目标,并且在面对形状不规则的目标时可能会失败。
近年来,数据驱动的方法,特别是利用卷积神经网络 (CNN) 的方法,已经显示出有希望的结果 [13]、[14]、[15]、[