俄罗斯模拟人类行为的具身导航!RaceVLA:基于视觉语言动作的竞速无人机自主导航

  • 作者:Valerii Serpiva, Artem Lykov, Artyom Myshlyaev, Muhammad Haris Khan, Ali Alridha Abdulkarim, Oleg Sautenkov and Dzmitry Tsetserukou

  • 单位:斯科尔科沃科学技术研究院智能空间机器人实验室

  • 论文标题:RaceVLA: VLA-based Racing Drone Navigation with Human-like Behaviour

  • 论文链接:https://arxiv.org/pdf/2503.02572

  • 项目主页:https://racevla.github.io/

  • 代码链接:https://github.com/SerValera/RaceVLA

主要贡献

  • 首次将 VLA 模型应用于竞速无人机:通过处理第一视角(FPV)视频流和自然语言指令,生成速度动作和偏航角速度控制信号,使无人机能够自主执行多种飞行任务,包括在不熟悉的环境中导航。

  • 出色的泛化能力:在动态环境中表现出强大的泛化能力,尤其是在运动和语义泛化方面优于 OpenVLA,且在所有泛化轴(视觉、运动、物理、语义)上均优于 RT-2。

  • 高效的实时性能:通过优化模型和硬件配置,实现了 4 Hz 的操作频率,能够满足高速无人机竞速的需求。代码、预训练权重和数据集均已开源,为相关研究提供了便利。

研究背景

  • 认知机器人领域的发展
    • 认知机器人能够通过自然语言在动态环境中执行复杂任务,涵盖多种机器人平台,如人形机器人、四足机器人、移动机器人、机械臂和无人机等。

    • 然而,无人机在 VLA 模型的应用方面仍待深入研究。

  • 现有无人机导航方法的局限性
    • 传统的无人机导航方法多依赖于基于 Transformer 的模型,主要集中在规划、轨迹生成或技能选择上。

    • 这些方法在动态场景中的适应性和实时性较差,难以泛化到未见过的任务。

研究方法

系统架构

  • VLA 模型
    • 以斯坦福大学开发的 OpenVLA 模型为基础,针对竞速无人机任务进行了微调。输入为无人机的 FPV 帧和自然语言指令,输出为控制无人机的 4D 动作向量(包含三个线性速度和偏航角速度)。

    • 该系统采用迭代方式实时调整无人机的轨迹,无需等待到达指定点再处理下一帧,确保飞行的连贯性。

  • 无人机平台
    • 使用定制的 8 英寸竞速无人机,配备 Speedy Bee F405 飞行控制器、RealSense T265 相机和英特尔 NUC 计算机。

    • VLA 模型在固定 PC 上运行,通过 Flask API 与无人机通信,实现对无人机的实时导航控制。

数据集收集与训练流程

  • 数据集构建
    • 包含 200 个飞行片段和约 20000 张图像,涵盖多种竞速任务,如通过拱门、方形门和圆形赛道等。

    • 使用 Vicon 运动捕捉系统记录无人机的速度,T265 相机以 30 Hz 的频率捕捉图像。

    • 每个数据样本包括位置数据、速度分量、偏航角度变化和同步的视觉帧,并附有语言任务指令。

  • 训练过程
    • 采用参数高效的低秩适配(LoRA)技术对 OpenVLA-7b 模型进行微调,使用单个 NVIDIA A100 GPU 进行训练,监控训练损失、动作预测准确性和 L1 损失等性能指标。

实验

无人机竞速任务评估

  • 单门导航任务
    • 测试无人机在不同初始位置下通过单个门的能力,平均速度为 0.51 m/s,最大速度为 0.80 m/s,速度的标准差为 0.17 m/s,平均偏航角速度为 0.243 rad/s,任务平均持续时间为 26.92 s。

  • 多门导航任务
    • 在圆形赛道上连续通过多个门的任务中,平均速度为 1.04 m/s,最大速度为 2.02 m/s,速度的标准差为 0.27 m/s,平均偏航角速度为 0.40 rad/s,偏航角速度的标准差为 0.12 rad/s。

VLA 泛化能力评估

  • 视觉泛化:测试模型在新环境中对未见过的背景、干扰物体和目标物品外观变化的适应能力。

  • 运动泛化:通过创建新的赛道评估模型在动态运动中处理未见过的物体位置和方向的能力。

  • 物理泛化:改变门的形状和大小,测试模型对物理环境变化的适应能力。

  • 语义泛化:设置未见过的无人机特定任务,评估模型对不熟悉指令和目标物体的理解和执行能力。RaceVLA 在运动和语义泛化方面优于 OpenVLA,但在视觉和物理泛化方面略逊一筹,不过仍全面优于 RT-2。

结论与未来工作

  • 结论
    • RaceVLA 通过利用 VLA 模型实现了类似人类的决策能力,能够适应动态环境中的自主无人机竞速导航。

    • 它在多个泛化维度上优于现有的先进模型,展示了在复杂环境中进行实时调整的强大潜力,为高性能导航和高度环境适应性任务树立了新的基准。

  • 未来工作
    • 提升视觉和物理泛化能力:进一步优化模型,使其在更具不可预测性和多样性的竞速场景中表现出更好的视觉和物理泛化性能。

    • 扩大数据集:增加更多环境条件的数据,以增强模型的鲁棒性和适应性。

    • 提高速度和实时性:降低模型的推理时间,以支持更高的飞行速度和更及时的导航更新。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值