迈向通才机器人策略:构建视觉-语言-动作模型的关键是什么

24年12月来自清华、字节、上海交大和新加坡国立的论文“Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models”。

基础视觉语言模型 (VLM) 在多模态表征学习、理解和推理方面表现出强大的能力。通过将动作组件注入 VLM,可以自然形成视觉-语言-动作模型 (VLA),并且表现出良好的性能。现有工作已经证明 VLA 在多种场景和任务中的有效性和泛化能力。然而,从 VLM 到 VLA 的迁移并不简单,因为现有的 VLA 在主干、动作预测公式、数据分布和训练方案方面有所不同。这导致缺少对 VLA 设计选择的系统理解。这项工作揭示显著影响 VLA 性能的关键因素,并专注于回答三个基本设计选择:选择哪个主干、如何制定 VLA 架构以及何时添加跨具身数据。所获得的结果解释为什么更喜欢 VLA 并开发一个新的 VLA 系列 RoboVLM,它只需要很少的手动设计,并在三个模拟任务和真实世界实验中实现最佳性能。通过大量实验,其中包括 8 个多个 VLM 主干、4 个策略架构和 600 多个不同的设计实验,RoboVLMs 框架也已公开,该框架支持轻松集成新的 VLM 和自由组合各种设计选择。已经开源所有细节 robovlms.github.io:代码、模型、数据集和工具包,以及详细的训练和评估配方。

如图所示:这项工作主要考虑基于 VLM 构建 VLA 的四个问题:为什么更喜欢 VLA;使用哪个主干;如何制定 VLA;何时使用跨具身数据作为额外数据源。借助提出的 RoboVLM,可以轻松地将 VLM 转换为支持多种具身、各种场景和任务的通才机器人策略。

请添加图片描述

构建能够根据人类指令感知、推理并与物理环境交互的通才机器人策略,一直是机器人技术领域的长期挑战 [4, 5, 7, 35]。最近,人们积极探索,对机器人数据进行某些架构调整来微调视觉语言模型 (VLM) ,学习机器人基础模型。由此产生的模型也称为视觉-语言-动作模型 (VLA),在模拟和现实世界任务中都表现出良好的效果 [7, 22, 24]1。除了 VLA,还存在各种通用策略,例如来自视频模型的策略,甚至是从头开始的策略。因此,一个自然而然的问题出现了:为什么更喜欢基于大规模预训练 VLM 构建的 VLA?与其他通用策略相比,人们普遍认为使用基于 VLM VLA 的原因是,通过对网络规模数据进行大量训练,VLM 已展示出强大的能力,能够学习多模态数据(如文本、图像/视频)的广义和鲁棒表示。这种能力可以启发机器人基础模型的适应性,以弥合高度多样化的开放世界场景和有限的机器人数据之间的差距。然而,大规模视觉语言预训练在多大程度上促进通才机器人策略,这仍然是一个悬而未决的问题。此外,大量不同的 VLM 迅速涌现,它们具有不同类型的 LLM 主干、训练数据、模型大小、架构和训练配方。哪种 VLM 主干更适合机器人操作也是开发成功的 VLA 的关键问题。

除了不同主干的多样性之外,对于包括 VLA 在内的通才机器人策略,结构更复杂,形式各异。基于现有的最流行研究 [4、7、20、22、24、34、35、39、47、55]࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值