- 博客(1090)
- 收藏
- 关注
原创 Hume:在视觉-语言-动作模型中引入系统 2 思维
25年6月来自上海交大、上海AI实验室、复旦大学、智元机器人公司、保加利亚索菲亚大学、浙大和西北工大的论文“Hume: Introducing System-2 Thinking in Visual-Language-Action Model”。人类在处理现实世界中的复杂任务时,会在执行实际操作之前进行慢思考。近年来,这种思维范式在提升大语言模型 (LLM) 解决数字领域复杂任务方面取得了显著进展。然而,慢思考的潜力在与现实世界交互的机器人基础模型中仍未被充分探索。本文提出 Hume 模型:一个双-系统
2025-06-24 01:00:00
519
原创 强化学习能为 VLA 泛化带来什么?一项实证研究
25年6月来自清华、上海姚期智研究院和北京中关村研究院的论文“What Can RL Bring to VLA Generalization? An Empirical Study”。大型视觉-语言动作 (VLA) 模型已展现出具身人工智能 (embodied AI) 的巨大潜力。然而,它们主要通过监督微调 (SFT) 进行训练,由于在分布偏移下容易受到复合误差的影响,限制了其泛化能力。强化学习 (RL) 提供了一种克服这些限制的方法,它通过反复试验来优化任务目标,但对于 VLA 相较于 SFT 的具身
2025-06-24 00:15:00
1210
原创 OPENHELIX:机器人操作的简短综述、实证分析和开源双-系统 VLA 模型(上)
25年5月来自西湖大学、浙大、西安交大和香港科大广州分校的论文“OPENHELIX: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation”。双-系统 VLA(视觉-语言-动作)架构已成为具身智能研究的热点,但目前尚缺乏足够的开源工作来进一步进行性能分析和优化。针对这一问题,本文将总结和比较现有双-系统架构的结构设计,并对现有双-系统架构的核心设计要素进行系统的
2025-06-23 00:15:00
638
原创 OPENHELIX:机器人操作的简短综述、实证分析和开源双-系统 VLA 模型(下)
25年5月来自西湖大学、浙大、西安交大和香港科大广州分校的论文“OPENHELIX: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation”。双-系统 VLA(视觉-语言-动作)架构已成为具身智能研究的热点,但目前尚缺乏足够的开源工作来进一步进行性能分析和优化。针对这一问题,本文将总结和比较现有双-系统架构的结构设计,并对现有双-系统架构的核心设计要素进行系统的
2025-06-23 00:15:00
539
原创 GRAPE:通过偏好对齐来泛化机器人策略
25年2月来自 UNC、西雅图的华盛顿大学和芝加哥大学的论文“GRAPE: Generalizing Robot Policy via Preference Alignment”。尽管视觉-语言-动作 (VLA) 模型最近在各种机器人任务上取得了进展,但它们仍存在一些关键问题,例如对未见过任务的泛化能力差,因为它们完全依赖于从成功案例中克隆行为。此外,它们通常经过微调以复制专家在不同环境下收集的演示,从而引入分布偏差并限制其对不同操作目标(如效率、安全性和任务完成)的适应性。为了弥补这一差距,本文推出
2025-06-22 00:15:00
932
原创 VLA-RL:通过可扩展强化学习实现精通的通用机器人操作
25年5月来自清华大学和南洋理工的论文“VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning”。近期,高容量视觉-语言-动作 (VLA) 模型通过模拟人类演示,在一系列机器人操作任务中展现出令人印象深刻的性能。然而,在数据分布不均的场景下,利用访问状态有限的离线数据会导致执行失败。直观地说,一种基于探索的方法,在测试时改进在线收集的数据,可以解决这一限制。VLA-RL,
2025-06-22 00:15:00
688
原创 动作中的视觉:从人类示范中学习主动感知
25年6月来自斯坦福 song 教授团队的论文“Vision in Action: Learning Active Perception from Human Demonstrations”。Vision in Action (ViA),一种用于双手机器人操作的主动感知系统。ViA 直接从人类演示中学习与任务相关的主动感知策略(例如搜索、跟踪和聚焦)。在硬件方面,ViA 采用简单而有效的 6 自由度机器人颈部,实现灵活、类似人类的头部运动。为了捕捉人类的主动感知策略,设计一个基于 VR 的遥操作界面,在
2025-06-21 09:20:29
1010
原创 BumbleBee:从专家到通才,迈向人形机器人的通用全身控制
25年6月来自北大和智在无界公司的论文“From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots”。由于多样化的运动需求和数据冲突,实现人形机器人的通用敏捷全身控制仍然是一项重大挑战。虽然现有框架擅长训练针对单一运动的策略,但由于控制要求的冲突和数据分布的不匹配,它们难以在高度多样化的行为中进行泛化。这项工作提出 BumbleBee (BB),这是一个专家-通才学习框架,它结合了运动聚类和模拟-
2025-06-21 09:15:00
1153
原创 EfficientVLA:面向视觉-语言-动作模型无训练的加速与压缩
25年6月来自上海交大、哈工大、西安交大和电子科大(成都)的论文“EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models”。视觉-语言-动作 (VLA) 模型,特别是基于扩散的架构,展现出具身智能的变革潜力,但却受到大量固有冗余和推理时间冗余导致的高计算和内存需求的严重阻碍。虽然现有的加速工作通常针对孤立的低效率问题,但这种零碎的解决方案通常无法整体解决整个 VLA 流程中的各种
2025-06-21 00:15:00
701
原创 SP-VLA:一种用于 VLA 模型加速的联合模型调度和 token 剪枝方法
25年6月来自清华、香港中文大学、UIUC 和北航的论文“SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration”。视觉-语言-动作 (VLA) 模型因其强大的控制能力而备受关注。然而,其高昂的计算成本和较低的执行频率阻碍了其在机器人操控和自主导航等实时任务中的应用。现有的 VLA 加速方法主要侧重于结构优化,忽略这些模型在序列决策环境中运行的事实。因此,序列动作生成中的时间冗余和视觉输
2025-06-21 00:15:00
480
原创 从意图到执行:探索视觉-语言-行动模型的泛化边界
25年6月来自纽约大学的论文“From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models”。视觉-语言-动作 (VLA) 模型相较于传统的机器人模仿学习,其优势在于能够利用大型视觉-语言模型 (VLM) 的广泛泛化能力,制定出功能多样、通才型的机器人策略。然而,目前对 VLA 的评估仍然不足。由于缺乏语言指令,传统的模仿学习基准并不适用。新兴的包含语言的 VLA 基
2025-06-20 01:19:02
1000
原创 PolyTouch:一种利用触觉扩散策略实现丰富接触操作的稳健多模态触觉传感器
25年4月来自MIT和TRI的论文“PolyTouch: A Robust Multi-Modal Tactile Sensor for Contact-rich Manipulation Using Tactile-Diffusion Policies”。在非结构化的家庭环境中实现稳健的灵巧操作仍然是机器人技术的重大挑战。即使采用最先进的机器人学习方法,触觉无关控制策略(即仅依赖外部视觉和/或本体感觉的策略)也常常由于遮挡、视觉复杂性以及需要精确的接触交互控制而失败。为了突破这些限制,PolyTouc
2025-06-20 00:18:27
1016
原创 Genie Centurion:通过人工-回放-和-细化指导加速规模化真实世界机器人训练
25年5月来自上海智元机器人的论文“Genie Centurion: Accelerating Scalable Real-World Robot Training with Human Rewind-and-Refine Guidance”。虽然视觉-语言-动作 (VLA) 模型在各种任务中展现出强大的泛化能力,但在现实世界中部署机器人策略仍然需要大规模、高质量的人类专家演示。然而,通过人类遥操作进行被动数据收集成本高昂、难以扩展,并且往往偏向于多样性有限的被动演示。为了解决这个问题,提出 Genie
2025-06-14 07:39:03
1190
原创 CLONE:用于长距离任务的闭环全身人形机器人遥操作
25年5月来自北理工、北京通用 AI 及其和宇树机器人的联合实验室、北大武汉 AI 的论文“CLONE: Closed-Loop Whole-Body Humanoid Teleoperation for Long-Horizon Tasks”。人形机器人遥操作在演示和收集复杂的人形场景交互数据方面发挥着至关重要的作用。然而,目前的遥操作系统面临着严重的局限性:它们将上半身和下半身的控制分离以保持稳定性,限制了自然协调性,并且在没有实时位置反馈的情况下进行开环操作,从而导致累积漂移。根本的挑战是在保
2025-06-14 07:38:16
885
原创 R2S2:通过现实世界现成的技能空间释放人形机器人的潜力
25年4月来自清华、北大、Galbot、上海AI实验室、上海姚期智研究院、南京大学和同济大学的论文“Unleashing Humanoid Reaching Potential via Real-world-Ready Skill Space”。人类在三维世界中拥有巨大的可达空间,能够与不同高度和距离的物体进行交互。然而,在人形机器人上实现如此大空间的可达性是一个复杂的全身控制问题,需要机器人同时掌握多种技能,包括基定位和重定向、高度和身体姿势调整以及末端执行器位姿控制。从头学习通常会导致优化困难和 s
2025-06-13 23:37:15
1404
原创 NORA:一个用于具身任务的小型开源通才视觉-语言-动作模型
25年4月来自新加坡技术和设计大学的论文“NORA: a Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks”。现有的视觉-语言-动作 (VLA) 模型在零样本场景中展现出优异的性能,展现出令人印象深刻的任务执行和推理能力。然而,视觉编码的局限性也带来巨大的挑战,这可能导致诸如物体抓取等任务的执行失败。此外,这些模型通常由于规模庞大(通常超过 70 亿个参数)而导致计算开销高昂。虽然这些模型在推理和任
2025-06-13 23:35:50
1179
原创 GraspCorrect:通过视觉-语言模型引导反馈进行机器人抓握矫正
25年3月来自韩国 POSTECH 的论文 “GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback”。尽管机器人操作技术取得了显著进步,但实现一致且稳定的抓取仍然是一项根本挑战,常常限制复杂任务的成功执行。分析表明,即使是最先进的策略模型也经常表现出不稳定的抓取行为,从而导致失败案例,并在现实世界的机器人应用中造成瓶颈。为了应对这些挑战,推出 Grasp-Correct,一个即插即用的模块,旨在通
2025-06-12 04:18:53
1217
原创 TASTE-Rob:推进面向任务的手-目标交互视频生成,实现可通用的机器人操作
25年3月来自香港中文大学的论文“TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation”。本文也是在解决现有数据集和模型在面向任务的手部-目标交互视频生成方面的关键限制,这是为机器人模仿学习生成视频演示的关键方法。当前的数据集,例如 Ego4D [16],经常受到视角不一致和交互错位的影响,导致视频质量下降并限制了它们在精确
2025-06-12 00:44:01
1219
原创 S4-Driver:具有时空视觉表征的可扩展自监督驾驶多模态大语言模型
25年5月来自 UC Berkeley、Waymo、Cornell 和 Georgia Tech 的论文“S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal Visual Representation”。多模态大语言模型 (MLLM) 的最新进展重新激起人们对自动驾驶端到端运动规划方法的浓厚兴趣。许多端到端方法依靠人类注释来学习中间感知和预测任务,而纯自监督方法(
2025-06-10 00:15:00
1030
原创 GeoDrive:基于三维几何信息有精确动作控制的驾驶世界模型
25年5月来自北大、理想汽车和 UC Berkeley 的论文“GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control”。世界模型的最新进展彻底改变动态环境模拟,使系统能够预见未来状态并评估潜在行动。在自动驾驶中,这些功能可帮助车辆预测其他道路使用者的行为、执行风险意识规划、加速模拟训练并适应新场景,从而提高安全性和可靠性。当前的方法在保持强大的 3D 几何一致性或在遮挡处理期间累积伪影方面表现出不足,
2025-06-10 00:15:00
1093
原创 慢-中-快:快速操作与慢速推理统一的双-系统基础模型
25年6月来自香港中文大学、北大、智平方(AI2Robotics)和北京智源研究院的论文“Fast-in-Slow: A Dual-System Foundation Model Unifying Fast Manipulation within Slow Reasoning”。广义策略和执行效率是机器人操作中的两个关键挑战。虽然最近的基础策略受益于互联网规模的预训练视觉语言模型 (VLM) 的常识推理能力,但它们往往受到执行频率低的困扰。为了缓解这一困境,受卡尼曼(Kahneman)理论的启发,提出了
2025-06-09 00:15:00
400
原创 SwitchVLA:视觉-语言-动作模型中执行-觉察的任务切换
25年6月来自北京人形机器人创新中心的论文“SwitchVLA: Execution-Aware Task Switching for Vision-Language-Action Models”。部署在动态环境中的机器人不仅必须能够遵循多种语言指令,还必须能够灵活地适应用户意图在执行过程中的变化。虽然最近的“视觉-语言-动作”(VLA)模型在多任务学习和指令遵循方面取得了进展,但它们通常假设任务意图是静态的,无法在执行过程中收到新指令时做出响应。这种限制阻碍在动态设置(例如零售或家庭环境)中自然而稳健
2025-06-09 00:15:00
784
原创 SmolVLA:经济高效的机器人视觉-语言-动作模型
25年6月来自 Hugging Face 的论文“SmolVLA: A vision-language-action model for affordable and efficient robotics”。在大规模多模态数据集上预训练的视觉-语言模型 (VLM) 能够编码丰富的视觉和语言知识,为机器人技术奠定坚实的基础。近期的方法并非从零开始训练机器人策略,而是将 VLM 改编成视觉-语言-动作 (VLA) 模型,从而实现自然语言驱动的感知和控制。然而,现有的 VLA 通常规模庞大——通常包含数十亿个
2025-06-08 00:15:00
910
原创 OG-VLA:通过正交图像生成的 3D-觉察视觉-语言-动作模型
25年6月来自USC、Nvidia 和 Georgia Tech 的论文“OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation”。OG-VLA,是一种架构和学习框架,它将视觉语言动作模型 (VLA) 的泛化优势与 3D -觉察策略的稳健性相结合。其解决将自然语言指令和多视图 RGB-D 观测映射到准静态机器人动作的挑战。3D -觉察机器人策略在精确的机器人操作任务上实现最先进的性能,但在泛化到未见过
2025-06-08 00:15:00
884
原创 LoHoVLA:面向长范围具身任务的统一视觉-语言-动作模型
25年6月来自复旦、上海科技大学和上海交大的论文“LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks”。现实世界中的具身智体面临着长期任务,其特点是高层次的目标需要多步骤的解决方案,而非单一的动作。成功完成这些任务需要高层次的任务规划(即将目标分解为子任务)和低层次的运动控制(即生成精确的机器人动作)。虽然现有的视觉-语言-动作 (VLA) 模型和分层架构在具身任务中展现出潜力,但前者在规划方面往
2025-06-07 04:00:00
875
原创 SLAC:用于全身真实世界强化学习的模拟预训练潜动作空间
25年6月来自德州 Austin 分校及其SONY和Amazon合作的论文“SLAC: Simulation-Pretrained Latent Action Space for Whole-Body Real-World RL”。构建功能强大的家用和工业机器人需要掌握多功能高自由度 (DoF) 系统(例如移动机械手)的控制。虽然强化学习 (RL) 有望实现机器人的自主控制策略,但将其扩展到高自由度实施例仍然具有挑战性。现实世界中的直接 RL 需要安全的探索和高采样效率,这在实践中很难实现。另一方面,由
2025-06-07 04:00:00
1040
原创 ForceVLA:利用力-觉察 MoE 增强 VLA 模型以实现丰富接触的操作
25年5月来自复旦、上海交大、新加坡国立、上海大学和西交大的论文“ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation”。
2025-06-06 00:15:00
684
原创 DexMachina:双手灵巧操作的功能重定向
25年5月来自斯坦福和Nvidia的论文“DexMachina: Functional Retargeting for Bimanual Dexterous Manipulation”。本文研究功能重定向问题:学习灵巧操作策略,从人手-目标演示中追踪目标状态。其专注于涉及铰接目标的长时域双手操作任务,由于动作空间巨大、时空不连续性以及人手与机器人手之间的具身差异,这项任务极具挑战性。其提出一种基于课程的算法 DexMachina,其核心思想是使用强度衰减的虚拟目标控制器:首先自动驱动目标向其目标状态移动
2025-06-06 00:15:00
902
原创 以人类演示视频为提示,学习可泛化的机器人策略
25年5月来自清华大学、上海姚期智研究院和星动纪元(RoboEra)公司的论文“Learning Generalizable Robot Policy with Human Demonstration Video as a Prompt”。最近的机器人学习方法通常依赖于从通过遥操作收集的大量机器人数据集中进行模仿学习。当面对新任务时,此类方法通常需要收集一组新的遥操作数据并微调策略。此外,遥操作数据收集流程也很繁琐且昂贵。相反,人类只需观察他人操作即可高效地学习新任务。本文介绍一种两阶段框架,如图所
2025-06-05 00:15:00
1631
原创 DexUMI:以人手为通用操作界面,实现灵巧操作
25年5月来自斯坦福大学、哥伦比亚大学、JP Morgan 研究、CMU 和 Nvidia 的论文“DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation”。DexUMI——一个数据收集和策略学习框架,它使用人手作为自然界面,将灵巧的操作技能转移到各种机械手上。DexUMI 包括硬件和软件适配,以最大限度地缩小人手和各种机械手之间的具体差距。硬件适配使用可穿戴手的外骨骼来弥合运
2025-06-05 00:15:00
1443
原创 Impromptu VLA:用于驾驶视觉-语言-动作模型的开放权重和开放数据
25年5月来自清华和博世的论文“Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models”。用于自动驾驶的“视觉-语言-动作” (VLA) 模型前景光明,但在非结构化极端场景下却表现不佳,这主要是由于缺乏有针对性的基准测试。为了解决这个问题, Impromptu VLA。其核心贡献是 Impromptu VLA 数据集:超过 8 万个精心挑选的视频片段,是从 8 个开源大型数据集的超过 200
2025-06-04 00:15:00
1651
原创 通过基于流视频预测的可泛化双手操作基础策略
25年5月来自中国电信、西北工业大学和香港科大的论文“Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction”。由于动作空间巨大且需要协调手臂运动,学习可泛化的双手操作策略对于具身智体而言极具挑战性。现有方法依赖于视觉-语言-动作 (VLA) 模型来获取双手操作策略。然而,从单臂数据集或预训练 VLA 模型迁移知识通常无法有效泛化,这主要是由于双手数据的匮乏以及单臂和双手操作之间的根本差异。本文
2025-06-04 00:15:00
2344
原创 RM-R1:奖励建模为推理
25年5月来自伊利诺伊州 UIUC、加州 UCSD、德州 TAMU 和新泽西州 Stevens 理工的论文“RM-R1: Reward Modeling as Reasoning”。奖励建模对于通过从人类反馈中进行强化学习将大语言模型与人类偏好相一致至关重要。为了提供准确的奖励信号,奖励模型 (RM) 应该在分配分数或判断之前激发深度思考并进行可解释的推理。受到推理密集型任务中长思维链最新进展的启发,假设并验证将推理能力集成到奖励建模中可以显著提高 RM 的可解释性和性能。为此,本文引入一类生成奖励模型
2025-06-03 00:15:00
1030
原创 TTRL:测试-时间强化学习
25年4月来自清华和上海AI实验室的论文“TTRL: Test-Time Reinforcement Learning”。本文研究在大语言模型 (LLM) 中针对推理任务的无明确标签数据强化学习 (RL)。该问题的核心挑战是在无法访问真实信息的情况下在推理过程中进行奖励估计。虽然这种设置似乎难以捉摸,但测试-时间规模化 (TTS) 中的常见做法(例如多数投票)可以产生令人惊讶的有效奖励,适合推动 RL 训练。这项工作引入测试-时间强化学习 (TTRL)
2025-06-03 00:15:00
884
原创 LightEMMA:用于自动驾驶的轻量级端到端多模态模型
25年5月来自密歇根大学和密歇根大学交通研究所的论文“LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving”。视觉-语言模型 (VLM) 已展示出端到端自动驾驶的巨大潜力。然而,充分利用其安全可靠的车辆控制能力仍然是一个开放的研究挑战。为了系统地研究 VLM 在驾驶任务中的进步和局限性,LightEMMA,一种用于自动驾驶的轻量级端到端多模态模型。LightEMMA 提供了一个统一的、基于 VLM 的自动驾驶框
2025-06-02 00:15:00
1195
原创 端到端视觉 token 化器调优
25年5月来自自动化所、中科院大学、北京智源、大连理工和清华的论文“End-to-End Vision Tokenizer Tuning”。现有的视觉 token 化方法将视觉 token 化器的优化与下游训练分离开来,隐式地假设视觉 token 可以推广到各种任务,例如图像生成和视觉问答。针对低级重建而优化的视觉 token 化器与需要各种表示和语义的下游任务无关。这种解耦范式引入了一个关键的错位:视觉 token 化的丢失可能成为目标任务的表示瓶颈。例如,图像中文本的token化错误会导致识别或生成
2025-06-02 00:15:00
647
原创 统一多模态预训练中的涌现特性
25年5月来自字节、深圳先进技术研究院、Monash 大学、香港科大和 UC Santa Cruz 的论文“Emerging Properties in Unified Multimodal Pretraining”。 统一多模态理解与生成已在尖端专有系统中展现出令人瞩目的能力。本研究的 BAGEL,是一个原生支持多模态理解与生成的开源基础模型。BAGEL 是一个统一的、仅用于解码器的模型,已基于从大规模交错文本、图像、视频和 Web 数据中精选的数万亿个 tokens 进行预训练。当使用如此多样化的多
2025-06-01 00:15:00
946
原创 AgentThink:在自动驾驶的一个统一框架,视觉-语言模型中工具增强的思维链推理
25年5月来自清华大学、Mcgill大学、小米公司和 Wisconsin(Madison)大学的论文“AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving”。视觉语言模型 (VLM) 在自动驾驶领域前景广阔,然而它们容易产生幻觉、推理效率低下,以及现实世界验证不足,这些因素阻碍了它们实现准确的感知和稳健的逐
2025-06-01 00:15:00
744
原创 OneTwoVLA:具有自适应推理能力的统一视觉-语言-动作模型
25年5月来自清华大学、上海姚期智研究院、上海 AI 实验室、复旦大学和 Spirit AI 的论文“OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning”。能够执行多种任务的通用机器人需要协同推理和行动能力。然而,最近的双-系统方法将高级推理与低级行动分离,常常面临诸如系统间能力相互理解有限以及延迟问题等挑战。本文介绍 OneTwoVLA,一个统一的视觉-语言-动作模型,可以同时执行行动(系统 1)和推理(系
2025-05-31 00:15:00
984
原创 目标-焦点执行器实现数据高效的机器人泛化灵巧操作
25年5月来自 JD 集团和北京交通大学的论文“Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation”。机器人操作学习从人类演示中学习提供了一种快速掌握技能的方法,但通常缺乏跨不同场景和物体位置的泛化能力。这一局限性阻碍了其在现实世界中的应用,尤其是在需要灵巧操作的复杂任务中。视觉-语言-动作 (VLA) 范式利用大规模数据来增强泛化能力。然而,由于数据稀缺,VLA 的性能仍然有限。本研究引入目
2025-05-31 00:15:00
827
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人