【论文阅读】Mono3DVG-CSDN博客

本文链接：https://blog.csdn.net/m0_57354496/article/details/142030730

《Mono3DVG: 3D Visual Grounding in Monocular Images》单目图像中的三维视觉锚定
论文专栏 | 博客主页

文章目录

摘要 Abstract
简介 Introduction
相关工作 Related Work
本文工作 Our Work
模型评估
- 损失函数
- 定性分析
附录

首先论文给出了Mono3DVG的优势：三维单目相机目标检测，包含准确的文本描述信息

图示说明：

Mono3DVG：使用带有几何信息的语言描述来定位图像中被引用对象的真实3D范围。
对应的 2D 任务没有捕捉到参考对象的 3D 范围。
定位特定对象对于单目 3D 对象检测是不可行的。
3D 视觉锚定需要激光雷达或 RGB-D 传感器，这极大地限制了其应用场景。

Visual Grounding（视觉锚定） 是指将图像中的特定图像区域与描述该区域的语言描述相连接的任务。这个任务要求算法理解图像和语言之间的关联，并将文字描述精确定位到图像中的物体或场景。

摘要 Abstract

我们使用外观和几何信息的语言描述，在单目RGB图像中引入一种新颖的3D视觉锚定任务。
构建了数据集 Mono3DRefer：包含3D对象目标及其文本描述（由chatGPT生成并手动细化）。
提出了网络Mono3DVG-TR：一种基于端到端Transformer基础的神经网络。利用文本嵌入中的外观和几何信息进行多模态学习和3D目标定位。（其中深度预测器被设计为学习几何特征）
提出了双文本引导适配器：用于细化参考对象的多尺度视觉和几何特征。
基于深度-文本-视觉叠加注意，解码器将对象级几何线索和视觉外观融合到一个可学习的查询中。

简介 Introduction

单目3D目标检测缺点：忽略了对3D空间及其对象的语义理解，无法基于人类指令完成特定对象定位。
摘要中提到的数据集 Mono3DRefer ：

Mono3DRefer，它提供了 8,228 个对象的 41,140 个自然语言表达式。Mono3DRefer 的描述包含由 ChatGPT 生成的外观和几何信息，并手动细化。几何信息可以提供更精确的指令并识别不可见的对象。即使物体的外观是人类的主要视觉感知，他们也倾向于使用几何信息来区分物体。

Mono3DVG-TR，它由多模态特征编码器、双文本引导适配器、锚定解码器和锚定头组成。

首先，我们采用 Transformer 和 CNN 来提取文本和视觉特征。深度预测器旨在显式学习几何特征。其次，为了细化所指对象的多尺度视觉和几何特征，我们提出了双文本引导适配器，基于像素注意执行文本引导特征学习。最后，一个可学习的查询首先聚合初始几何特征，然后通过文本嵌入增强与文本相关的几何特征，最后从多尺度视觉特征中收集外观特征。深度文本-视觉堆叠注意力将对象级几何线索和视觉外观融合到查询中，完全实现文本引导的解码。

本文工作 Our Work

数据标注

在这里插入图片描述

总框架：Mono3DVG-TR

端到端的基于Transformer的框架Mono3DVG-TR，它由四个主要模块组成: 1)编码器; 2)适配器; 3)解码器; 4)接地头。

在这里插入图片描述

概述：多模态特征编码器首先提取文本、多尺度视觉和几何特征。双文本引导适配器基于像素级注意力优化所指对象的视觉和几何特征。一个可学习的查询在锚定解码器中使用深度文本视觉叠加注意力来融合几何线索和对象的视觉外观。最后，锚定头采用多个MLP来预测目标的二维和三维属性。

多模态特征编码器

利用预训练的RoBERTa和线性层来提取文本嵌入。
文本 $P_t \in \mathbb{R}^{C \times Nt}$
$N_t$ 是输入文本的长度
利用CNN骨干网和线性层来获得四级多尺度视觉特征。
图像 $\in \mathbb{R}^{H \times W \times 3}$
视觉特征 $f_v \in \mathbb{R}^{C \times N_v}$ 其中 C = 256，并且：
利用轻量级深度预测器来获得几何特征。
几何特征 $f_g \in \mathbb{R}^{C \times N_g}$ 其中：
然后，我们设计视觉编码器和深度编码器来进行全局上下文推理，并生成具有长期依赖关系的嵌入，表示为：
$p_v \in \mathbb{R}^{C \times N_v}$ ， $p_g \in \mathbb{R}^{C \times N_g}$

在这里插入图片描述
深度编码器由一个 Transformer 组成编码器层，用于对几何嵌入进行编码。视觉编码器用 多尺度可变形注意力（MSDA） 代替了多头自注意力（MHSA），以避免对多尺度视觉特征进行过度的注意力计算。此外，我们在MSDA层和前馈网络（FFN）之间插入了一个额外的 多头交叉注意力（MHCA）层 ，为视觉嵌入提供了文本线索。

双文本引导适配器

为了利用文本中的外观和几何信息，提出了双适配器。

在这里插入图片描述

深度适配器以几何嵌入 $p_g$ 作为 MHCA 的查询，以文本嵌入 $p_t$ 作为键和值。
然后，使用多头注意(MHA)层对几何特征应用隐含的文本引导自注意。原始几何嵌入 $p_g$ 为值。细化后的几何特征记为 $p_g''$ 。
视觉适配器需要在 MHCA 前后分割和连接多尺度视觉嵌入 $p_v$ ，该嵌入使用大小为 $\frac{H}{16} \times \frac{W}{16}$ 的 $p_v^{\frac{1}{16}}$ 作为查询。
然后，用 MSDA 代替 MHA ，将细化后的视觉特征记为 $p_v''$ 。

然后，我们将 $p_v^{\frac{1}{16}}$ 与 MHCA 的输出在视觉适配器中进行线性投影，分别得到原始的视觉特征映射 $F_{orig} \in \mathbb{R}^{C \times \frac{H}{16} \times \frac{W}{16}}$ 和文本相关度 $F_{text} \in \mathbb{R}^{C \times \frac{H}{16} \times \frac{W}{16}}$ 。为了探索视觉和语言之间的对齐关系和细粒度相关性，我们计算特征图中每个区域 $(i, j)$ 的注意力得分 $s_{ij} \in \mathbb{R}^{\frac{H}{16} \times \frac{W}{16}}$ ，如下所示:

其中， $_2$ 和 ⊙ 分别表示 $l_2$ 范数和元素乘积。然后，我们使用高斯函数进一步对每个像素特征与文本特征之间的 ${\frac{H}{16} \times \frac{W}{16}}$ 大小的语义相似度 $S^{\frac{1}{16}}$ 进行建模：

其中，α 和 σ 分别是比例因子和标准偏差，两者都是可学习的参数。我们使用双线性插值对 $S^{\frac{1}{16}}$ 进行上采样，并使用最大池化对 $S^{\frac{1}{16}}$ 进行下采样。然后我们连接展平的分数图以获得多尺度注意力分数 $\in \mathbb{R}^{N_v}$ ：

基于像素级注意力分数，视觉和几何特征集中在与文本描述相关的区域。我们使用特征 $p_v''$ 和 $p_g''$ 和分数（ $S^{\frac{1}{16}} \in \mathbb{R}^{N_d}$ 被展平）来执行逐元素乘法，从而产生参考对象的适应特征：

锚定解码器

如总框架的图所示，第 n 个解码器层由一个由 MHA、MHCA 和 MSDA 组成的块组成的块和一个 FFN。可学习查询 $p_q \in \mathbb{R}^{C \times 1}$ 首先聚合初始几何信息，然后通过文本嵌入增强与文本相关的几何特征，最后从多尺度视觉特征中收集外观特征。这种深度文本视觉堆叠注意力自适应地将对象级几何线索和视觉外观融合到查询中。

锚定头

我们的锚定头使用多个多层感知器（MLPs）来预测2D和3D属性。解码器的输出，即可学习的查询 $\hat{p_q} \in \mathbb{R}^{C \times 1}$ ，分别输入到不同的预测模块中：首先是线性层用于预测对象类别，然后是一个3层的MLP用于预测2D边框尺寸 $（长 l 、宽 r 、上端 t 、下端 b ）$ ，并且投影3D边框中心 $x_{3D}, y_{3D})$ ，接着是一个2层的MLP用于预测3D边框尺寸 $h_{3D}, w_{3D}, l_{3D})$ ，另一个2层的MLP用于预测3D边框方向θ，还有一个2层的MLP用于预测深度dreg。 $(l, r, t, b)$ 代表了2D边框四个侧边到3D中心点投影 $x_{3D}, y_{3D})$ 的距离。类似地(Zhang et al., 2022)中的做法，最终预测的深度dpred是这样计算出来的。

模型评估

损失函数

我们将类别、二维框大小和投影的三维中心分组为二维属性，将三维框大小、方向和深度分组为三维属性。2D的损失公式为：
其中，λ1∼4设置为（2,5,2,10），如下（Zhang等人，2022）。Lclass是焦损（Lin等人，2017），用于预测九个类别。Llrtb和Lxy3D采用L1损耗。LGIoU是约束二维边界框的GIoU损失（Rezatofighi等人，2019）。3D的损失定义为：
总损失公式为：
各种评价指标函数的对比结果如下图：

定性分析

在这里插入图片描述
上图显示了Cube R-CNN Best、ReSC反向传播、TransVG反向传播和我们提出的方法的3D定位结果。虽然可以获得对象的大致范围，但Cube R-CNN Best无法提供精确的边界框。ReSC反向传播和TransVG反向传播依赖于2D框的精度，无法估计深度，因此无法提供准确的3D边界框。我们的方法包括文本RGB和文本深度两个分支，充分利用外观和几何信息进行多模态融合。

附录

本文所有参考如下，如有侵权联系删除：
论文：《Mono3DVG: 3D Visual Grounding in Monocular Images》
项目地址：https://github.com/ZhanYang-nwpu/Mono3DVG?tab=readme-ov-file