卡耐基梅隆大学 | 世界模型终将驱动自动驾驶！全新SOTA规划算法-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心分享一篇卡耐基梅隆大学团队基于自适应世界模型的自动驾驶规划工作！如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→自动驾驶之心『规划控制』技术交流群

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

运动规划对于复杂城市环境中的安全航行至关重要。从历史上看，运动规划器（MP）是在仿真环境（如CARLA）进行评估的。然而，这种合成基准并不能捕捉现实世界中的多智能体交互。最近发布的MP基准测试nuPlan通过使用闭环仿真逻辑增强现实世界的驾驶日志来解决这一限制，有效地将固定数据集变成了反应仿真器。我们分析了nuPlan记录日志的特征，发现每个城市都有自己独特的驾驶行为，这表明稳健的规划者必须适应不同的环境。我们学习使用BehaviorNet对这种独特的行为进行建模，BehaviorNetwork是一种图卷积神经网络（GCNN），它使用从最近观察到的代理历史中导出的特征来预测反应性代理行为；凭直觉，一些激进的agent可能会尾随车辆，而其他agent则可能不会。为了对这些现象进行建模，BehaviorNet预测代理的运动控制器的参数，而不是预测其时空轨迹（就像大多数预测者所做的那样）。最后，我们介绍了AdaptiveDriver，这是一种基于模型预测控制（MPC）的规划器，它以Behav-iorNet的预测为条件展开不同的世界模型。我们的大量实验表明，AdaptiveDriver在nuPlan闭环规划基准上取得了最先进的结果，将测试误差从6.4%降低到4.6%，即使应用于从未见过的城市。

项目主页：https://arunbalajeev.github.io/world_models_planning/world_model_paper.html

总结来说，本文的主要贡献如下：

我们证明，每个城市都有自己独特的驾驶行为，适应这些不同的环境会显著提高规划性能。此外，我们发现一个城市的行为甚至会有所不同，从而激励我们下一步的贡献。
我们提出了BehaviorNet，这是一种图卷积神经网络（GCNN），它使用最近在周围场景中观察到的代理的特征来预测参数化为IDM控制的驾驶行为。
本文介绍了AdaptiveDriver，这是一款基于模型预测控制（MPC）的规划器，它可以展开并执行自适应世界模型，以在各种环境中安全导航，在nuPlan上实现最先进的闭环规划性能。

Planning With An Ensemble of World Models

在本节中，我们分析了PDM-C的局限性，并提出了AdaptiveDriver，这是一种模型预测控制的替代实例，在nuPlan基准上实现了最先进的闭环规划性能。

nuPlan在反应仿真中评估规划者。nuPlan通过闭环模拟逻辑增强了真实世界的驾驶日志，允许其他代理对自我车辆做出反应。代理以基于其轨迹历史的初始速度实例化，并将从记录的驾驶日志中重新模拟其空间轨迹。所有代理的封闭世界模拟逻辑用固定的目标速度（h0）、最小间隙（h1）、车头时距（h2）、最大加速度（h3）和最大减速度（h4）初始化。

理解PDM-C的局限性。PDM-C是一种最先进的基于规则的规划器，它改进了智能驾驶员模型（IDM），这是一种沿参考路径使用简单纵向PID速度控制器的跟车算法。PDM-C通过用不同的纵向速度和横向偏移调制IDM的参考路径来生成候选轨迹，在内部展开其他代理的世界模型，并选择使该世界模型的成本函数最小化的轨迹，将IDM升级为基于MPC的规划器。值得注意的是，PDM-C使用了一个更简单的“轨道上的世界”内部世界模型，其中其他代理是无反应的，在推出过程中以恒定速度移动。尽管具有恒定速度预测的“轨道上的世界”模型可能适用于短期预测，但它无法正确模拟多智能体的相互作用，如车道变更、车道合并和红绿灯停车。

用BehaviorNet预测未来Agent行为。我们通过学习使用BehaviorNet预测未来的代理行为，改进了“轨道上的世界”模型。我们通过编码自车辆周围半径为R的矢量化道路图和所有附近代理的两秒轨迹历史，对每个场景的独特驾驶特征进行建模。BehaviorNet由几个多尺度图卷积和注意力模块组成，后面是一个全连接层，用于预测IDM控制参数。我们在补充中进一步描述了BehaviorNet的架构。值得注意的是，与传统的预测器不同，BehaviorNet直接预测IDM控制参数，然后可以用来展开反应世界模型。

学习自适应行为参数。我们用过去的代理轨迹和目标IDM控制参数的配对例子来训练BehaviorNet，这些参数最能解释未来的代理行为。我们通过使用网格搜索拟合训练日志来优化目标IDM参数：

Training Log-BehaviorNet。尽管每个城市都有不同的驾驶特征，但代理人在一个城市内的行为仍然不同。例如，波士顿的司机可能会在市内使用尾门，但在高速公路上驾驶时更容易造成事故。为了对此进行建模，我们只需在每个单独的训练日志上优化Eq.1。图3（a）用tSNE可视化了一组特定于日志的IDM参数{}，按城市进行颜色编码。我们没有训练BehaviorNet来直接回归这些参数，而是将问题重新定义为一个简单的离散分类任务。具体来说，我们将{}的集合聚类为K个聚类，并用K路softmax损失训练BehaviorNet。我们将此网络称为日志行为网络，与城市行为网络形成对比。图3-b）将学习到的行为集群与（a）中的原始城市“集群”进行了比较。图3-（c）绘制了两个不同集群的最小间隙分布，表明每个集群松散地对应于原型行为，如“攻击性”或“被动”。我们调整行为集群的数量（K），以便最大化nuPlan val集上的C3性能。有趣的是，最优数量（16）远大于不同城市的数量（4）。重要的是，我们表明，与城市特定模型相比，城市不可知集群的泛化能力更强，尤其是在从未见过的城市上进行评估时。

将学习的先验纳入基于规则的规划器。尽管像PDM-C这样的基于规则的规划者在真实数据上仍然优于基于学习的方法，但它们无法在世界模型的推出中准确地对未来的代理行为建模。我们的目标是通过AdaptiveDriver（参见图4）弥合基于规则和学习的规划者之间的差距，AdaptiveDrive是一种模型预测控制（MPC）规划者，使用行为参数预测来提高世界模型推出的质量。值得注意的是，尽管AdaptiveDriver和PDM-C都是基于MPC的规划者的实例，但我们的模型（1）使用了一个反应世界模型，该模型（2）使用从过去的代理行为中导出的特征来适应每个日志。

实验

结论

在本文中，我们证明了每个城市都有自己独特的驾驶行为（例如，波士顿司机比匹兹堡司机更倾向于尾门），并学习使用BehaviorNet对独特的驾驶特征进行建模。我们提出了AdaptiveDriver，这是一种模型预测控制（MPC），它以BehaviorNet的预测为条件展开并执行特定行为的世界模型，并在nuPlan闭环反应基准上实现最先进的性能。

参考

[1] Planning with Adaptive World Models for Autonomous Driving

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频