51-16 FusionAD 用于自动驾驶预测与规划任务的多模态融合论文精读_fusionad: multi-modality fusion for prediction and-CSDN博客

本文链接：https://blog.csdn.net/weixin_45035094/article/details/135756728

FusionAD是首个融合相机和LiDAR信息的端到端自动驾驶框架，专攻预测和规划任务。通过BEV Encoder和感知模块，结合多模态特征的FMSPnP模块，提升预测和规划准确性。在nuScenes数据集上，FusionAD在预测和规划任务中表现出SOTA性能，提高了15%的检测精度和10%的占用预测精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天要分享的是基于BEV的多模态、多任务、端到端自动驾驶模型FusionAD，其专注于自动驾驶预测和规划任务。这项工作首次发表于2023年8月2日，性能超越了2023 CVPR最佳论文UniAD模型。论文题目是FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving，主要作者来自Udeer.ai、西湖大学和和菜鸟网络。

Abstract

构建多模态、多任务神经网络以实现准确和稳健的性能是自动驾驶感知任务的事实标准。然而，利用来自多个传感器的这些数据来联合优化预测和规划任务在很大程度上仍未得到探索。为此我们提出了 FusionAD，这是第一个融合来自两个最关键传感器（相机和 LiDAR）信息的统一框架，超越了感知任务。具体来说，我们首先构建了一个基于transformer的多模态网络，以有效地产生基于融合的特征。与基于相机的端到端方法UniAD相比，我们建立了一个旨在融合模态感知预测和状态感知规划的模块。它利用了多模态特征，在这里称为 FMSPnP。我们在常用的基准nuScenes数据集进行了广泛的实验，FusionAD在检测和跟踪等感知任务上有最先进的性能。它平均超过基线15%，占用预测精度提高10%，ADE评分的预测误差从0.708降低到0.389，并将碰撞率从0.31%降低到仅0.12%。