24年3月,上海交通大学、上海人工智能实验室、卡内基梅隆大学和清华大学联合发布Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents,基于LLM协作的可编辑自动驾驶场景仿真。ChatSim利用了大型语言模型(LLM)智能体协作框架,采用了一种新颖的多摄像头神经辐射场McNeRF和多摄像头照明估计McLight方法实现了自动驾驶场景可编辑与生成。
仿真照进现实,生成更近一步。全场景感知->全场景重建->全场景编辑->全场景生成的自动驾驶数据生产全链路脉络已经清晰。
期待赋能到端到端自动驾驶、具身智能等落地应用。
和我们一起,走进数据生成的世界!本专题由深圳季连科技有限公司AIgraphX自动驾驶大模型团队编辑,旨在学习互助。内容来自网络,侵权即删,转发请注明出处。
Abstract
自动驾驶场景仿真因其产生定制数据的巨大潜力而备受关注。然而,现有可编辑场景仿真方法在用户交互效率、多摄像头逼真渲染和外部数字资产集成等方面存在局限性。为了解决这些挑战,本文介绍了ChatSim,这是第一个通过外部数字资产的自然语言命令实现可编辑、逼真的3D驾驶场仿真系统。为了实现具有高度命令灵活性的编辑,ChatSim利用了大型语言模型(LLM)智能体协作框架。为了产生逼真结果,ChatSim采用了一种新颖的多摄像头神经辐射场方法。此外,为了释放大量高质量数字资产的潜力,ChatSim采用了一种新颖的多摄像头照明估计方法来实现场景一致的资产渲染。我们在Waymo开放数据集上的实验表明,ChatSim可以处理复杂的语言命令并生成相应的逼真场景视频。
代码已经开源 https://