原文链接:https://arxiv.org/abs/2311.12058
简介:占用预测能减轻3D目标检测中的长尾问题并处理形状复杂的物体,但3D体素级表达不可避免地引入计算和存储开销,阻碍了其应用。本文提出FlashOcc,用2D卷积进行BEV特征提取,随后使用通道到高度的变换,将BEV提升到3D空间。本文方法在性能、速度和存储消耗上均优于之前的sota。
1. 概述
如图所示,FlashOcc分为5个基本模块:2D图像编码器、视图变换模块、BEV编码器、占用预测模块、可选的时间融合模块。
图像编码器和视图变换模块可选择常用模型/方法(如ResNet+FPN与LSS)。
BEV编码器结构与图像编码器类似,包含主干和颈部网络。
2. 占用预测模块
首先将BEV特征通过卷积网络,随后进行通道到高度的操作(本质上为reshape)。将 B × C × W × H B\times C\times W\times H