RT-Grasp：通过多模态大语言模型推理调优机器人抓取_rt-grasp: reasoning tuning robotic grasping via mu-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/144663302

24年11月来自Rutgers大学和百度美研的论文“RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model”。

大语言模型 (LLM) 的最新进展展示了其卓越的推理能力，使其在各个领域都具有影响力。然而，在机器人技术领域，由于其固有的文本输出，它们的使用主要限于操作规划任务。本文研究采用 LLM 的推理能力在机器人任务（特别是机器人抓取）中生成数值预测的潜力来解决这一限制。推理调优（Reasoning Tuning），在训练期间预测之前，将推理阶段集成进来，利用 LLM 的广泛先验知识和高级推理能力。这种方法使 LLM（尤其是具有多模态能力的 LLM）能够生成准确的数值输出，例如具有上下文感知和可通过对话进行调优的抓取姿势。此外，还提供了推理调优 VLM Grasp 数据集，该数据集经过精心挑选，以促进 LLM 适应机器人抓取。对抓取数据集和真实世界实验的广泛验证，强调多模态 LLM 对机器人数值预测任务的适应性。这不仅扩大了它们的适用性，而且还弥合了基于文本的规划和直接机器人控制之间的差距，从而最大限度地发挥 LLM 在机器人技术方面的潜力。

如图所示比较三种机器人抓取方法：1) 传统的基于 CNN 的算法产生固定姿态，在实际情况中缺乏适应性。2) 多模型 LLM 输出适应性抓取策略，但缺乏精确的数值预测。3) 本文算法结合两者的优点，通过合理的策略预测可适应的数值抓取。

请添加图片描述