卡耐基梅隆大学 | 世界模型终将驱动自动驾驶!全新SOTA规划算法

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心分享一篇卡耐基梅隆大学团队基于自适应世界模型的自动驾驶规划工作!如果您有相关工作需要分享,请在文末联系我们!

>>点击进入→自动驾驶之心规划控制技术交流群

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

运动规划对于复杂城市环境中的安全航行至关重要。从历史上看,运动规划器(MP)是在仿真环境(如CARLA)进行评估的。然而,这种合成基准并不能捕捉现实世界中的多智能体交互。最近发布的MP基准测试nuPlan通过使用闭环仿真逻辑增强现实世界的驾驶日志来解决这一限制,有效地将固定数据集变成了反应仿真器。我们分析了nuPlan记录日志的特征,发现每个城市都有自己独特的驾驶行为,这表明稳健的规划者必须适应不同的环境。我们学习使用BehaviorNet对这种独特的行为进行建模,BehaviorNetwork是一种图卷积神经网络(GCNN),它使用从最近观察到的代理历史中导出的特征来预测反应性代理行为;凭直觉,一些激进的agent可能会尾随车辆,而其他agent则可能不会。为了对这些现象进行建模,BehaviorNet预测代理的运动控制器的参数,而不是预测其时空轨迹(就像大多数预测者所做的那样)。最后,我们介绍了AdaptiveDriver,这是一种基于模型预测控制(MPC)的规划器,它以Behav-iorNet的预测为条件展开不同的世界模型。我们的大量实验表明,AdaptiveDriver在nuPlan闭环规划基准上取得了最先进的结果,将测试误差从6.4%降低到4.6%,即使应用于从未见过的城市。

410c04bbcd3d61eb1e902053dd92e599.png

项目主页:https://arunbalajeev.github.io/world_models_planning/world_model_paper.html

总结来说,本文的主要贡献如下:

  • 我们证明,每个城市都有自己独特的驾驶行为,适应这些不同的环境会显著提高规划性能。此外,我们发现一个城市的行为甚至会有所不同,从而激励我们下一步的贡献。

  • 我们提出了BehaviorNet,这是一种图卷积神经网络(GCNN),它使用最近在周围场景中观察到的代理的特征来预测参数化为IDM控制的驾驶行为。

  • 本文介绍了AdaptiveDriver,这是一款基于模型预测控制(MPC)的规划器,它可以展开并执行自适应世界模型,以在各种环境中安全导航,在nuPlan上实现最先进的闭环规划性能。

相关工作回顾

基于规则的规划。尽管最近的工作侧重于通过预测目标条件下的路线点、成本量和奖励函数来学习稳健的政策,但基于规则的规划者仍然优于基于实际数据的学习方法。基于规则的规划者得到了很好的研究,并因其安全保障和可解释性而被广泛采用。给定当前位置、速度和到引导车辆的距离,基于规则的规划者估计纵向加速度,以安全地朝着目标前进。智能驾驶员模型(IDM)是一种用于车辆运动规划的经典非学习算法,它依靠基于图的搜索来到达目标,同时使用PID速度控制器来避免与其他车辆碰撞。Dauner等人通过对多个轨迹进行采样并展开等速世界模型来升级IDM,以选择成本最低的最优轨迹。这改进了碰撞避免,而不会导致过于保守的运动计划。

轨迹优化。运动规划通常被定义为手工设计的成本函数的优化问题,然后将其最小化以生成最优轨迹。为了简化这一过程,成本函数采用平方目标函数,或将规划任务划分为横向和纵向部分。通常使用A*、RRT和动态规划等方法来搜索最优解。CoverNet生成一组轨迹,并根据成本函数对其进行评估,选择成本最低的轨迹。虽然这些方法由于其并行性、可解释性和功能保证而具有吸引力,但当应用于真实世界的场景时,它们并不健壮,需要进行重大的超参数调整。传统的轨迹优化方法通常旨在计算从初始配置到期望目标配置的完整轨迹。然而,考虑到驾驶环境固有的动态和不确定性,无法提前预测精确的长期运动计划。因此,模型预测控制(MPC)近年来在实时路径规划中获得了突出地位,因为它采用迭代成本最小化策略为每个时间步长选择局部最优轨迹。这使得基于MPC的算法能够快速适应环境的变化。

数据驱动的仿真。近年来,利用CARLA、AirSim等模拟器环境的可用性,出现了许多基于学习的规划者。然而,目前的仿真环境是有限的,因为它们依赖于游戏引擎生成的合成数据,并且视觉逼真度不足。重要的是,他们缺乏全面培训和评估所需的驾驶场景的必要多样性。为了解决这些限制,提出了多智能体行为模型,用于生成多样化和现实的交通模拟。最近,推出了Waymo模拟agent挑战,通过将所有仿真代理的轨迹与其地面实况轨迹进行比较来评估模拟器。此外,CommonRoad提供了一个驾驶数据集和规划基准,它结合了真实世界的数据和基于规则的启发式方法。相比之下,nuPlan通过闭环模拟逻辑增强了真实世界的驾驶日志,有效地将固定数据集变成了反应式模拟器。nuPlan发布了来自拉斯维加斯、波士顿、匹兹堡和新加坡等多个城市的1300小时真实驾驶日志。在每个城市开车都会带来一系列独特的驾驶挑战。例如,拉斯维加斯有许多高密度的上下车地点,每个方向有8条平行车道的十字路口。在波士顿,司机们倾向于双停车,这给规划带来了独特的挑战。

Planning With An Ensemble of World Models

5366cf0015c2a862b1f097212a29542a.png

在本节中,我们分析了PDM-C的局限性,并提出了AdaptiveDriver,这是一种模型预测控制的替代实例,在nuPlan基准上实现了最先进的闭环规划性能。

nuPlan在反应仿真中评估规划者。nuPlan通过闭环模拟逻辑增强了真实世界的驾驶日志,允许其他代理对自我车辆做出反应。代理以基于其轨迹历史的初始速度实例化,并将从记录的驾驶日志中重新模拟其空间轨迹。所有代理的封闭世界模拟逻辑用固定的目标速度(h0)、最小间隙(h1)、车头时距(h2)、最大加速度(h3)和最大减速度(h4)初始化。

理解PDM-C的局限性。PDM-C是一种最先进的基于规则的规划器,它改进了智能驾驶员模型(IDM),这是一种沿参考路径使用简单纵向PID速度控制器的跟车算法。PDM-C通过用不同的纵向速度和横向偏移调制IDM的参考路径来生成候选轨迹,在内部展开其他代理的世界模型,并选择使该世界模型的成本函数最小化的轨迹,将IDM升级为基于MPC的规划器。值得注意的是,PDM-C使用了一个更简单的“轨道上的世界”内部世界模型,其中其他代理是无反应的,在推出过程中以恒定速度移动。尽管具有恒定速度预测的“轨道上的世界”模型可能适用于短期预测,但它无法正确模拟多智能体的相互作用,如车道变更、车道合并和红绿灯停车。

用BehaviorNet预测未来Agent行为。我们通过学习使用BehaviorNet预测未来的代理行为,改进了“轨道上的世界”模型。我们通过编码自车辆周围半径为R的矢量化道路图和所有附近代理的两秒轨迹历史,对每个场景的独特驾驶特征进行建模。BehaviorNet由几个多尺度图卷积和注意力模块组成,后面是一个全连接层,用于预测IDM控制参数。我们在补充中进一步描述了BehaviorNet的架构。值得注意的是,与传统的预测器不同,BehaviorNet直接预测IDM控制参数,然后可以用来展开反应世界模型。

学习自适应行为参数。我们用过去的代理轨迹和目标IDM控制参数的配对例子来训练BehaviorNet,这些参数最能解释未来的代理行为。我们通过使用网格搜索拟合训练日志来优化目标IDM参数:

f06d2d5a984b17b43370be5bf236b96d.png

Training Log-BehaviorNet。尽管每个城市都有不同的驾驶特征,但代理人在一个城市内的行为仍然不同。例如,波士顿的司机可能会在市内使用尾门,但在高速公路上驾驶时更容易造成事故。为了对此进行建模,我们只需在每个单独的训练日志上优化Eq.1。图3(a)用tSNE可视化了一组特定于日志的IDM参数{},按城市进行颜色编码。我们没有训练BehaviorNet来直接回归这些参数,而是将问题重新定义为一个简单的离散分类任务。具体来说,我们将{}的集合聚类为K个聚类,并用K路softmax损失训练BehaviorNet。我们将此网络称为日志行为网络,与城市行为网络形成对比。图3-b)将学习到的行为集群与(a)中的原始城市“集群”进行了比较。图3-(c)绘制了两个不同集群的最小间隙分布,表明每个集群松散地对应于原型行为,如“攻击性”或“被动”。我们调整行为集群的数量(K),以便最大化nuPlan val集上的C3性能。有趣的是,最优数量(16)远大于不同城市的数量(4)。重要的是,我们表明,与城市特定模型相比,城市不可知集群的泛化能力更强,尤其是在从未见过的城市上进行评估时。

4124cd7150fae7611e4f53cb54c69cd0.png

将学习的先验纳入基于规则的规划器。尽管像PDM-C这样的基于规则的规划者在真实数据上仍然优于基于学习的方法,但它们无法在世界模型的推出中准确地对未来的代理行为建模。我们的目标是通过AdaptiveDriver(参见图4)弥合基于规则和学习的规划者之间的差距,AdaptiveDrive是一种模型预测控制(MPC)规划者,使用行为参数预测来提高世界模型推出的质量。值得注意的是,尽管AdaptiveDriver和PDM-C都是基于MPC的规划者的实例,但我们的模型(1)使用了一个反应世界模型,该模型(2)使用从过去的代理行为中导出的特征来适应每个日志。

556a933e0cceebcf381da26dcefcc4b4.png

实验

02878a00d63820fd4b3ca5ce2094cc53.png 6c97ca56be570fb905494568ff3fe4af.png 9df7357ef54db6af50dc5d43f8a48709.png 77d834eff139e92b266d8d9836e87526.png d38d2d18946ba7b1669417d79d2f6620.png b5c75c84a5f37b579f806e1743525b68.png

结论

在本文中,我们证明了每个城市都有自己独特的驾驶行为(例如,波士顿司机比匹兹堡司机更倾向于尾门),并学习使用BehaviorNet对独特的驾驶特征进行建模。我们提出了AdaptiveDriver,这是一种模型预测控制(MPC),它以BehaviorNet的预测为条件展开并执行特定行为的世界模型,并在nuPlan闭环反应基准上实现最先进的性能。

参考

[1] Planning with Adaptive World Models for Autonomous Driving

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

89f15e44aa56a304e61061408680b1f0.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

3e70b1f080c448f325a1b12f4ac77f5e.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

2ae42411febc7215c29d03df0b86d92f.jpeg

④【自动驾驶之心】全平台矩阵

30bd4523177ec68d3a2a156e3364e8e4.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值