
文章目录
- 首先论文给出了Mono3DVG的优势:三维单目相机目标检测,包含准确的文本描述信息
图示说明:
- Mono3DVG:使用带有几何信息的语言描述来定位图像中被引用对象的真实3D范围。
- 对应的 2D 任务没有捕捉到参考对象的 3D 范围。
- 定位特定对象对于单目 3D 对象检测是不可行的。
- 3D 视觉锚定需要激光雷达或 RGB-D 传感器,这极大地限制了其应用场景。
Visual Grounding(视觉锚定) 是指将图像中的特定图像区域与描述该区域的语言描述相连接的任务。这个任务要求算法理解图像和语言之间的关联,并将文字描述精确定位到图像中的物体或场景。
摘要 Abstract
- 我们使用外观和几何信息的语言描述,在单目RGB图像中引入一种新颖的3D视觉锚定任务。
- 构建了数据集 Mono3DRefer:包含3D对象目标及其文本描述(由chatGPT生成并手动细化)。
- 提出了网络Mono3DVG-TR:一种基于端到端Transformer基础的神经网络。利用文本嵌入中的外观和几何信息进行多模态学习和3D目标定位。(其中深度预测器被设计为学习几何特征)
- 提出了双文本引导适配器:用于细化参考对象的多尺度视觉和几何特征。
- 基于深度-文本-视觉叠加注意,解码器将对象级几何线索和视觉外观融合到一个可学习的查询中。
简介 Introduction
-
单目3D目标检测缺点:忽略了对3D空间及其对象的语义理解,无法基于人类指令完成特定对象定位。
-
摘要中提到的数据集 Mono3DRefer :
Mono3DRefer,它提供了 8,228 个对象的 41,140 个自然语言表达式。Mono3DRefer 的描述包含由 ChatGPT 生成的外观和几何信息,并手动细化。几何信息可以提供更精确的指令并识别不可见的对象。即使物体的外观是人类的主要视觉感知,他们也倾向于使用几何信息来区分物体。
Mono3DVG-TR,它由多模态特征编码器、双文本引导适配器、锚定解码器和锚定头组成。
首先,我们采用 Transformer 和 CNN 来提取文本和视觉特征。深度预测器旨在显式学习几何特征。其次,为了细化所指对象的多尺度视觉和几何特征,我们提出了双文本引导适配器,基于像素注意执行文本引导特征学习。最后,一个可学习的查询首先聚合初始几何特征,然后通过文本嵌入增强与文本相关的几何特征,最后从多尺度视觉特征中收集外观特征。深度文本-视觉堆叠注意力将对象级几何线索和视觉外观融合到查询中,完全实现文本引导的解码。
相关工作 Related Work
2D视觉锚定
2D 视觉锚定 旨在通过语言表达来定位图像中参考对象的 2D 边界框。
- 两阶段目标检测采用预训练的检测器生成区域建议并提取视觉特征。
- NMTree (Liu et al. 2019a)和RvG-Tree (Hong et al. 2022)通过解析表达式来利用树网络。
- 为了捕捉物体的关系,Yang、Li和Yu(2019)采用了图神经网络。
- 最近,单阶段管道因其计算成本低而被广泛使用。
- 许多作品使用视觉和文本编码器来提取视觉和文本特征,然后融合多模态特征回归框坐标。它们不依赖于预先生成的提案的质量。
- 然而,这些工作无法获得现实世界中物体的真实3D坐标,极大地限制了应用。
单目3D目标检测
单目三维目标检测 的目的是预测图像中所有对象的三维边界框。
- 基于锚的方法需要预设的 3D 锚点并回归相对偏移。
- 基于关键点的方法,然后估计 3D 边界框的大小和位置。由于缺乏深度信息,纯单目方法难以准确定位目标。
- 基于伪深度的方法,利用额外的深度估计器来补充深度信息。
- 然而,现有模型仅从视觉内容中提取空间关系和深度信息。
3D视觉锚定
3D 视觉锚定 任务旨在通过语言表达来定位 3D 场景中参考对象的 3D 边界框。
- 与对应的 2D 任务类似,早期的工作采用两阶段网络,它使用预训练的检测器来生成对象建议并提取特征
- Feng等人(2021)构建了一个语言场景图、3D提议关系图和3D视觉图。
- 3DVG-Trans等都开发了基于Transformer的架构。
- Liu等人(2021)提出了一种新的RGB-D图像三维视觉锚定任务。
- (2023) 在基于在线捕获的 2D 图像和 3D 点云的大规模动态户外场景中介绍了该任务。
- 然而,通过 LiDAR 或工业相机捕获视觉数据是昂贵的,并且不容易用于广泛的应用
本文工作 Our Work
数据标注
总框架:Mono3DVG-TR
端到端的基于Transformer的框架Mono3DVG-TR,它由四个主要模块组成:
1)编码器; 2)适配器; 3)解码器; 4)接地头。
- 概述:多模态特征编码器首先提取文本、多尺度视觉和几何特征。双文本引导适配器基于像素级注意力优化所指对象的视觉和几何特征。一个可学习的查询在锚定解码器中使用深度文本视觉叠加注意力来融合几何线索和对象的视觉外观。最后,锚定头采用多个MLP来预测目标的二维和三维属性。
多模态特征编码器
-
利用预训练的RoBERTa和线性层来提取文本嵌入。
文本 P t ∈ R C × N t P_t \in \mathbb{R}^{C \times Nt} Pt∈RC×Nt
N t N_t Nt 是输入文本的长度 -
利用CNN骨干网和线性层来获得四级多尺度视觉特征。
图像 I ∈ R H × W × 3 I \in \mathbb{R}^{H \times W \times 3} I∈RH×W×3
视觉特征 f v ∈ R C × N v f_v \in \mathbb{R}^{C \times N_v} fv∈RC×Nv 其中 C = 256,并且:
-
利用轻量级深度预测器来获得几何特征。
几何特征 f g ∈ R C × N g f_g \in \mathbb{R}^{C \times N_g} fg∈RC×Ng 其中:
-
然后,我们设计视觉编码器和深度编码器来进行全局上下文推理,并生成具有长期依赖关系的嵌入,表示为:
p v ∈ R C × N v p_v \in \mathbb{R}^{C \times N_v} pv∈RC×Nv , p g ∈ R C × N g p_g \in \mathbb{R}^{C \times N_g} pg∈RC×Ng
深度编码器由一个 Transformer 组成编码器层,用于对几何嵌入进行编码。视觉编码器用 多尺度可变形注意力(MSDA) 代替了多头自注意力(MHSA),以避免对多尺度视觉特征进行过度的注意力计算。此外,我们在MSDA层和前馈网络(FFN)之间插入了一个额外的 多头交叉注意力(MHCA)层 ,为视觉嵌入提供了文本线索。
双文本引导适配器
为了利用文本中的外观和几何信息,提出了双适配器。
- 深度适配器以几何嵌入
p
g
p_g
pg 作为
MHCA
的查询,以文本嵌入 p t p_t pt 作为键和值。 - 然后,使用多头注意(
MHA
)层对几何特征应用隐含的文本引导自注意。原始几何嵌入 p g p_g pg 为值。细化后的几何特征记为 p g ′ ′ p_g'' pg′′ 。 - 视觉适配器需要在
MHCA
前后分割和连接多尺度视觉嵌入 p v p_v pv,该嵌入使用大小为 H 16 × W 16 \frac{H}{16} \times \frac{W}{16} 16H×16W 的 p v 1 16 p_v^{\frac{1}{16}} pv161 作为查询。 - 然后,用
MSDA
代替MHA
,将细化后的视觉特征记为 p v ′ ′ p_v'' pv′′。
- 然后,我们将
p
v
1
16
p_v^{\frac{1}{16}}
pv161 与
MHCA
的输出在视觉适配器中进行线性投影,分别得到原始的视觉特征映射 F o r i g ∈ R C × H 16 × W 16 F_{orig} \in \mathbb{R}^{C \times \frac{H}{16} \times \frac{W}{16}} Forig∈RC×16H×16W 和文本相关度 F t e x t ∈ R C × H 16 × W 16 F_{text} \in \mathbb{R}^{C \times \frac{H}{16} \times \frac{W}{16}} Ftext∈RC×16H×16W 。为了探索视觉和语言之间的对齐关系和细粒度相关性,我们计算特征图中每个区域 ( i , j ) (i, j) (i,j) 的注意力得分 s i j ∈ R H 16 × W 16 s_{ij} \in \mathbb{R}^{\frac{H}{16} \times \frac{W}{16}} sij∈R16H×16W ,如下所示:
其中, ∥ ⋅ ∥ 2 ∥·∥_2 ∥⋅∥2 和 ⊙ 分别表示 l 2 l_2 l2 范数和元素乘积。然后,我们使用高斯函数进一步对每个像素特征与文本特征之间的 H 16 × W 16 {\frac{H}{16} \times \frac{W}{16}} 16H×16W大小的语义相似度 S 1 16 S^{\frac{1}{16}} S161 进行建模:
其中,α 和 σ 分别是比例因子和标准偏差,两者都是可学习的参数。我们使用双线性插值对 S 1 16 S^{\frac{1}{16}} S161 进行上采样,并使用最大池化对 S 1 16 S^{\frac{1}{16}} S161 进行下采样。然后我们连接展平的分数图以获得多尺度注意力分数 S ∈ R N v S \in \mathbb{R}^{N_v} S∈RNv :
基于像素级注意力分数,视觉和几何特征集中在与文本描述相关的区域。我们使用特征 p v ′ ′ p_v'' pv′′ 和 p g ′ ′ p_g'' pg′′ 和分数( S 1 16 ∈ R N d S^{\frac{1}{16}} \in \mathbb{R}^{N_d} S161∈RNd 被展平)来执行逐元素乘法,从而产生参考对象的适应特征:
锚定解码器
如总框架的图所示,第 n 个解码器层由一个由 MHA、MHCA 和 MSDA 组成的块组成的块和一个 FFN。可学习查询 p q ∈ R C × 1 p_q \in \mathbb{R}^{C \times 1} pq∈RC×1 首先聚合初始几何信息,然后通过文本嵌入增强与文本相关的几何特征,最后从多尺度视觉特征中收集外观特征。这种深度文本视觉堆叠注意力自适应地将对象级几何线索和视觉外观融合到查询中。
锚定头
我们的锚定头使用多个多层感知器(MLPs)来预测2D和3D属性。解码器的输出,即可学习的查询 p q ^ ∈ R C × 1 \hat{p_q} \in \mathbb{R}^{C \times 1} pq^∈RC×1 ,分别输入到不同的预测模块中:首先是线性层用于预测对象类别,然后是一个3层的MLP用于预测2D边框尺寸 (长 l 、宽 r 、上端 t 、下端 b ) (长l、宽r、上端t、下端b) (长l、宽r、上端t、下端b),并且投影3D边框中心 ( x 3 D , y 3 D ) (x_{3D}, y_{3D}) (x3D,y3D),接着是一个2层的MLP用于预测3D边框尺寸 ( h 3 D , w 3 D , l 3 D ) (h_{3D}, w_{3D}, l_{3D}) (h3D,w3D,l3D) ,另一个2层的MLP用于预测3D边框方向θ,还有一个2层的MLP用于预测深度dreg。 ( l , r , t , b ) (l, r, t, b) (l,r,t,b) 代表了2D边框四个侧边到3D中心点投影 ( x 3 D , y 3 D ) (x_{3D}, y_{3D}) (x3D,y3D) 的距离。类似地(Zhang et al., 2022)中的做法,最终预测的深度dpred是这样计算出来的。
模型评估
损失函数
-
我们将类别、二维框大小和投影的三维中心分组为二维属性,将三维框大小、方向和深度分组为三维属性。2D的损失公式为:
-
其中,λ1∼4设置为(2,5,2,10),如下(Zhang等人,2022)。Lclass是焦损(Lin等人,2017),用于预测九个类别。Llrtb和Lxy3D采用L1损耗。LGIoU是约束二维边界框的GIoU损失(Rezatofighi等人,2019)。3D的损失定义为:
-
总损失公式为:
-
各种评价指标函数的对比结果如下图:
定性分析
上图显示了Cube R-CNN Best、ReSC反向传播、TransVG反向传播和我们提出的方法的3D定位结果。虽然可以获得对象的大致范围,但Cube R-CNN Best无法提供精确的边界框。ReSC反向传播和TransVG反向传播依赖于2D框的精度,无法估计深度,因此无法提供准确的3D边界框。我们的方法包括文本RGB和文本深度两个分支,充分利用外观和几何信息进行多模态融合。
附录
本文所有参考如下,如有侵权联系删除:
论文:《Mono3DVG: 3D Visual Grounding in Monocular Images》
项目地址:https://github.com/ZhanYang-nwpu/Mono3DVG?tab=readme-ov-file