多机协同文献调研(更新中,纯做笔记,自用)

多机协同文献调研


关键词:ultiview Detection 多视图检测,https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/123766663,
多视角融合检测
多视角目标检测

参考帖子1:https://www.zhihu.com/question/651573920/answer/3468794482?utm_campaign=shareopn&utm_medium=social&utm_psn=1819927941745876992&utm_source=wechat_session

参考帖子2多角度融合纯视觉目标检测

综述:
3D object detection for autonomous driving: A comprehensive survey
3D Object Detection From Images for Autonomous Driving: A Survey
纯视觉3d目标检测:纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!
参考的一些文章:
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
BEVStereo | nuScenes纯视觉3D目标检测新SOTA!(旷视、中科大)
nuScenes纯视觉目标检测无外部数据榜单

1.多视角融合检测

2023

VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for Camera-based 3D Object Detection(code)

在自动驾驶中,车辆-基础设施协同三维物体检测(VIC3D)利用来自车辆和交通基础设施的多视角摄像头,提供了超越单一车辆视角的全球视角和丰富的路况语义信息。在VIC3D中,存在两个主要挑战:1)由于摄像头时间不同步,融合多视角图像时会产生固有的校准噪声;2)将2D特征投影到3D空间时的信息丢失。为了解决这些问题,我们提出了一种新颖的三维物体检测框架,称为车辆-基础设施多视角中间融合(VIMI)。

首先,为了充分利用车辆和基础设施的整体视角,我们提出了多尺度交叉注意力(MCA)模块,在选择性多尺度上融合基础设施和车辆特征,以修正由摄像头不同步引入的校准噪声。然后,我们设计了一个摄像机感知通道掩蔽(CCM)模块,利用摄像机参数作为先验信息来增强融合特征。我们进一步引入了特征压缩(FC)模块,通过通道和空间压缩块来减小传输特征的大小,提高传输效率。实验结果表明,VIMI在新的VIC3D数据集DAIR-V2X-C上实现了15.61%的总体AP_3D和21.44%的AP_BEV,显著超越了最先进的早期融合和晚期融合方法,同时保持了可比的传输成本。

MFFN: Multi-View Feature Fusion Network for Camouflaged Object Detection (cvpr code)

近期关于伪装物体检测(COD)的研究旨在分割隐藏在复杂环境中的高度隐蔽物体。这些微小而模糊的伪装物体导致视觉上难以区分的特性。然而,目前的单视角COD检测器对背景干扰敏感。因此,伪装物体的模糊边界和变化形状很难通过单视角检测器完全捕捉。为了克服这些障碍,我们提出了一种受行为启发的框架,称为多视角特征融合网络(MFFN),它模拟人类在图像中寻找不清晰物体的行为,即从多个角度、距离和视角观察。具体而言,其关键思想是通过数据增强生成多种观察方式(多视角),并将其作为输入。MFFN通过比较和融合提取的多视角特征来捕捉关键的边界和语义信息。此外,我们的MFFN利用视角和通道之间的依赖性和交互性。具体而言,我们的方法通过一个名为多视角共同注意(CAMV)的两阶段注意模块利用不同视角之间的互补信息。同时,我们设计了一个局部-整体模块,称为通道融合单元(CFU),以迭代方式探索多样特征图的通道上下文线索。实验结果表明,我们的方法在使用相同数据进行训练时,表现优于现有的最先进方法。代码将发布在 https://github.com/dwardzheng/MFFN_COD。

Multi-View Target Transformation for Pedestrian Detection(wacv )

遮挡是单视角行人检测中最具挑战性的问题之一。 为了缓解遮挡问题,人们利用多视角系统来全面获取和识别遮挡目标。 大多数情况下,文献中的方法都是利用透视变换来聚合场景的不同感知视角,但投影失真问题会导致空间结构断裂,使这些方法无法充分探索投影特征。 在本文中,我们提出了一种新方法–多视角目标变换(Multi-view Target Transformation,MVTT),通过编码完整的目标特征并限制投影特征的关注区域,来解决多视角聚合固有的失真问题。 实验结果表明,我们提出的方法在公共数据集上的表现优于近期的相关方法。 消融研究也证实了拟议组件的有效性。

Multi-View Adversarial Discriminator: Mine the Non-Causal Factors for Object Detection in Unseen Domains(cvpr code)

单目三维物体检测已成为自动驾驶中的主流方法,因为它易于应用。其显著优势在于推理过程中不需要LiDAR点云。然而,目前大多数方法仍依赖于3D点云数据来标记训练阶段使用的真实值。这种训练与推理之间的不一致使得利用大规模反馈数据变得困难,并增加了数据收集成本。为了解决这一问题,我们提出了一种新的弱监督单目3D物体检测方法,可以仅使用在图像上标记的2D标签进行模型训练。具体而言,我们探索了该任务中的三种一致性,即投影、一致性、多视角一致性和方向一致性,并基于这些一致性设计了一种弱监督架构。此外,我们提出了一种新的2D方向标记方法,以指导模型进行准确的旋转方向预测。实验表明,我们的弱监督方法在性能上与一些全监督方法相当。当作为预训练方法使用时,我们的模型仅用1/3的3D标签就能显著超越相应的全监督基线。

Viewpoint equivariance for multi-view 3d object detection (cvpr code)

来自视觉传感器的三维物体检测是机器人系统的一项基础能力。最先进的方法专注于从多视角相机输入中推理和解码物体边界框。在本研究中,我们从多视角一致性在三维场景理解和几何学习中的重要作用中获得直觉。为此,我们引入了VEDet,这是一种新颖的三维物体检测框架,利用三维多视角几何来通过视角感知和等变性提高定位精度。VEDet采用基于查询的变换器架构,通过将图像特征与其三维视角几何的位置信息编码进行增强,来编码三维场景。我们在输出层设计了视角条件查询,这使得在训练过程中生成多个虚拟帧,从而通过强制多视角一致性来学习视角等变性。输入层注入的多视角几何作为位置信息编码,并在损失层进行正则化,为三维物体检测提供了丰富的几何线索,从而在nuScenes基准上取得了最先进的性能。代码和模型已在 https://github.com/TRI-ML/VEDet 发布。

Dual Fusion-Propagation Graph Neural Network for Multi-View Clustering

深度多视图表示学习的重点是为多源或多模态数据训练统一的低维表示。 随着图神经网络受到越来越多的关注,越来越多的研究人员将各种图模型引入多视图学习。 尽管已经取得了相当大的成就,但现有的大多数方法通常只传播单一视图的信息,并且只从属性或关系的角度融合多种信息。 为了解决上述问题,我们提出了一种高效模型,称为双融合-传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大泽泽的小可爱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值