视觉与语言导航(Visual and Language Navigation,简称VLN)融合了视觉识别与自然语言处理的能力,旨在引导智能代理在三维空间中进行导航。其宗旨在于使这些代理能够依据类人的指令,高效地穿梭于错综复杂的空间之中。这一领域的进步对于机器人技术、增强现实以及智能助手技术等领域具有重大意义,尤其是在这些领域中,语言指令对于与物理空间的互动至关重要。
VLN研究面临的一个核心挑战是缺乏将导航路径与精确的自然语言指令相结合的高质量标注数据集。这些数据集的手动标注不仅需要大量的资源、专业知识和努力,而且成本高昂、耗时费力。此外,现有的标注往往缺乏必要的语言丰富性和准确性,这对于模型在多样化环境中的泛化能力至关重要,也限制了它们在现实世界中的应用效果。
目前,解决方案主要依赖于合成数据的生成和环境的增强。合成数据通过轨迹到指令模型生成,而模拟器则用于使环境多样化。然而,这些方法往往需要提高数据质量,因为它们产生的语言和导航轨迹之间的对齐度较差。这种不一致性导致智能代理的性能不佳。此外,评估指令的语义和方向与它们对应的轨迹的指标不足,进一步加剧了质量控制的挑战。
来自上海人工智能实验室、北卡罗来纳大学教堂山分校、Adobe Research和南京大学的研究人员提出了一种名为自我完善数据飞轮(Self-Refining Data Flywheel,简称SRDF)的系统。该系统旨在通过指令生成器和导航器之间的相互协作,迭代地改进数据集和模型。这种完全自动化的方法消除了人工标注的需求。SRDF系统从一个小规模、高质量的人工标注数据集开始,生成合成指令,并用这些指令来训练基础导航器。然后,导航器评估这些指令的准确性,筛选出低质量数据,以便在后续迭代中训练出更优秀的生成器。这种迭代细化确保了数据质量和模型性能的持续提升。
SRDF系统包括两个关键组件:指令生成器和导航器。指令生成器利用先进的多模态语言模型,从轨迹中创建合成导航指令。导航器则通过测量其能够多准确地跟随生成的路径来评估这些指令。系统基于严格的保真度指标,如按路径长度加权的成功(Success weighted by Path Length,简称SPL)和归一化的动态时间弯曲(normalized Dynamic Time Warping,简称nDTW),来识别高质量的数据。低质量数据将被重新生成或排除,确保只有可靠和高度对齐的数据被用于训练。经过三次迭代,系统细化了数据集,最终包含2000万高保真指令-轨迹对,覆盖了860个多样化的环境。
SRDF系统在各种指标和基准测试中展现了卓越的性能提升。在房间到房间(Room-to-Room,简称R2R)数据集上,导航器的SPL指标从70%上升到了前所未有的78%,超过了人类基准的76%。这标志着VLN代理首次超越了人类级别的导航精度。指令生成器也取得了令人印象深刻的结果,SPICE分数从23.5增加到26.2,超过了所有先前的视觉和语言导航指令生成方法。此外,SRDF生成的数据促进了在下游任务中的优越泛化,包括长期导航(long-term navigation,R4R)和基于对话的导航(dialogue-based navigation,CVDN),在所有测试的数据集中实现了最先进的性能。
具体来说,系统在长期导航中表现出色,在R4R数据集上成功率提高了16.6%。CVDN数据集显著提高了目标进度指标,超越了所有先前的模型。此外,SRDF的可扩展性表现在指令生成器随着更大的数据集和多样化环境的一致改进,确保在不同任务和基准测试中的稳健性能。研究人员还报告了指令多样性和丰富性的增强,SRDF生成的数据集中纳入了超过10,000个独特的词汇,解决了以前数据集的词汇限制问题。
SRDF方法通过自动化数据集细化解决了VLN中长期存在的数据稀缺挑战。导航器和指令生成器之间的迭代协作确保了这两个组件的持续增强,导致高度对齐、高质量的数据集。这一突破性方法为VLN研究树立了新的标准,展示了数据质量和对齐在推进具身人工智能(Embodied AI)中的关键作用。凭借其超越人类性能和在多样化任务中泛化的能力,SRDF有望推动智能导航系统的显著进展。
详见论文:https://www.arxiv.org/pdf/2412.08467