NTA-IoU指标提升超42%,北京大学提出首个使用世界模型提升自动驾驶场景重建质量DriveDreamer4D

Abstract

闭环仿真是推进端到端自动驾驶系统的重要环节。当代传感器仿真方法,如NeRF和3DGS,主要依赖与训练数据分布高度一致的条件,这通常局限于前向驾驶场景。因此,这些方法在渲染复杂的机动动作(如变道、加速、减速)时存在局限性。近年来,自动驾驶世界模型在生成多样化驾驶视频方面展现了潜力,但这些方法仍然局限于二维视频生成,无法捕捉动态驾驶环境所需的时空一致性。在本文中,我们提出了DriveDreamer4D,通过利用世界模型先验知识提升4D驾驶场景表示。具体来说,我们将世界模型作为数据机器,基于真实世界的驾驶数据生成新颖的轨迹视频。值得注意的是,我们明确利用结构化条件来控制前景和背景元素的时空一致性,从而使生成的数据严格遵循交通约束。据我们所知,DriveDreamer4D是第一个利用视频生成模型来提升驾驶场景4D重建质量的框架。实验结果显示,DriveDreamer4D在新轨迹视图下显著提升了生成质量,相比于PVG、S3Gaussian和Deformable-GS,分别在FID指标上提升了24.5%、39.0%和10.5%。此外,DriveDreamer4D显著增强了驾驶代理的时空一致性,通过全面的用户研究和NTA-IoU指标的提升分别达到了20.3%、42.0%和13.7%的相对提升。

项目地址:https://drivedreamer4d.github.io

 欢迎加入自动驾驶实战群

Introduction

端到端规划直接将传感器输入映射为控制信号,是自动驾驶中最关键和最有前途的任务之一。然而,目前的开环评估不足以准确评估端到端规划算法,凸显了增强评估方法的迫切需求。一个引人注目的解决方案是在真实场景中进行闭环评估,这需要从任意指定的视角获取传感器数据。因此,这需要构建一个能够重建复杂、动态驾驶环境的4D驾驶场景表示。

驾驶环境中的闭环仿真主要依赖于场景重建技术,如神经辐射场(NeRF)和3D高斯点云(3DGS),这些技术本质上受到输入数据密度的限制。具体来说,这些方法只能在与其训练数据分布高度一致的条件下有效渲染场景,主要限于前向驾驶场景,并且在处理复杂机动动作时表现不佳。为了解决这些限制,方法如SGD和GGS利用生成模型扩展训练视角范围。然而,这些方法主要补充稀疏图像数据或静态背景元素,无法建模动态交互驾驶场景的复杂性。最近,自动驾驶世界模型的进展引入了生成多样化、指令对齐的视频视角的能力,为自动驾驶中的闭环仿真带来了新的希望。然而,这些模型仍然局限于二维视频,缺乏准确建模复杂驾驶场景所需的时空一致性。

在本文中,我们提出了DriveDreamer4D,通过集成自动驾驶世界模型的先验知识改进4D驾驶场景表示。我们的方法利用自动驾驶世界模型作为生成引擎,生成新颖的轨迹视频数据,以增强真实世界驾驶数据集的训练效果。值得注意的是,我们提出了新颖的轨迹生成模块(NTGM),用于生成多样化的结构化交通条件。DriveDreamer4D应用这些条件来独立调节复杂驾驶环境中前景和背景元素的运动动态。这些条件经过与车辆机动同步的视图投影,确保生成数据严格遵守4D驾驶场景的时空约束。据我们所知,DriveDreamer4D是第一个利用视频生成模型来提升自动驾驶4D场景重建质量的框架,为变道、加速和减速等场景提供丰富多样的视角数据。实验结果表明,DriveDreamer4D在新轨迹视角下显著提升了生成质量,与PVG、S3Gaussian和Deformable-GS相比,分别在FID指标上提升了24.5%、39.0%和10.5%。此外,DriveDreamer4D加强了前景和背景元素的时空一致性,分别在NTA-IoU指标上提升了20.3%、42.0%和13.7%。此外,一项全面的用户研究确认,DriveDreamer4D相较于三个基线模型的平均胜率超过了80%。

3.Method

在本节中,我们首先介绍4D驾驶场景表示和用于驾驶视频生成的世界模型的初步内容。然后,详细介绍DriveDreamer4D如何利用驾驶世界模型的先验知识来增强4D驾驶场景表示。

3.1 初步介绍
3.1.1 4D驾驶场景表示

4DGS(4D高斯点云)通过一组3DGS(3D高斯点云)和时间场模块来建模驾驶场景。每个3DGS由其中心位置x、不透明度γ、协方差Σ和视角相关的RGB颜色c参数化,并通过球面谐波控制。为了确保稳定性,每个协方差矩阵Σ通过以下公式分解:

图片

其中,缩放矩阵S和旋转矩阵R是可学习的参数,分别表示为缩放s和四元数r。单个3D高斯的所有可训练参数统称为ϕ = {x, γ, s, r, c}。时间场F将ϕ和时间步长tgs作为输入,输出相对于规范空间的每个高斯的偏移量δϕ = {δx, δγ, δs, δr, δc}。接下来,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值