在计算机视觉领域,图像特征匹配作为图像拼接、3D 重建和视觉定位等任务的基础,其重要性不言而喻。
近年来,随着视觉基础模型的兴起,将其应用于特征匹配任务成为主流趋势。
然而,现有方法在引入基础模型时忽略了一个关键问题 —— 基础模型与特征匹配任务之间的不匹配。
近日,一篇发表在 ICCV 2025 的论文《Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching》提出了一种新颖的解决方案 ——IMD(Image feature Matching with a pre-trained Diffusion model)框架,成功弥合了这一差距。
研究背景:基础模型与特征匹配的不匹配问题
视觉基础模型在大规模数据集上预训练后,展现出了强大的单图像理解能力。
然而,当将这些模型应用于图像特征匹配任务时,研究者发现了一个不容忽视的问题:基础模型专注于单图像理解,而特征匹配需要跨图像关系理解,这种差异导致了显著的性能下降,尤其是在多实例特征匹配场景中。
具体来说,这种不匹配体现在两个方面:
1)常用基础模型提取的嵌入与特征匹配所需的最优嵌入存在差异
2)缺乏有效的机制将单图像理解能力转化为跨图像理解能力
这种不匹配的直接后果是现有方法在处理多实例匹配问题时表现不佳。
例如,当图像中存在多个相同类别的实例时,模型难以准确定位正确的实例,这在实际应用中如自动驾驶场景中的多车辆识别、机器人导航中的多目标跟踪等场景中是亟待解决的问题。
核心创新:IMD 框架的双模块设计
为解决上述问题,IMD 框架提出了两个核心创新模块:
1. 基于生成式扩散模型的特征提取范式
与传统使用对比学习基础模型(如 DINOv2)不同,IMD 创新性地引入了生成式扩散模型(如 Stable Diffusion)作为特征提取器。
这一选择基于以下观察:
1)对比学习模型强调全局语义,往往丢失特定实例的细节信息
2)生成式扩散模型的特征包含各种对象和实例的独特外观和结构信息,这对于精确匹配至关重要
IMD 利用扩散模型的 UNet 解码器作为主干,直接处理干净的自然图像,为每个实例获取显式表示。
这种方法能够捕捉到实例级的细节,从而在多实例场景中表现更优。
2. 跨图像交互提示模块(CIPM)
为了促进图像对之间的双向信息交互,IMD 提出了 CIPM 模块。
该模块的设计灵感来源于生成模型中的提示机制,将其作为跨图像信息交互的天然通道。具体来说:
1)利用预训练的图像编码器(如 CLIP)提取图像特征
2)通过交叉注意力机制计算图像对之间的交互信息
3)设计个性化提示,引导扩散模型的特征提取过程,增强相关性和判别性
CIPM 模块使模型在特征提取过程中能够捕捉图像之间的潜在几何和语义关系,从而生成更相关和全面的图像特征。
新型基准:IMIM 多实例匹配数据集
为了更准确地衡量基础模型与特征匹配任务之间的不匹配,IMD 团队提出了一个新的基准数据集 ——IMIM(Image Multi-Instance Matching)。
该数据集基于 BURST 视频跟踪和分割数据集构建,具有以下特点:
1)包含同一对象类别的多个实例的图像对
2)对保留实例级细节提出了更严格的要求
3)弥补了现有基准(如 MegaDepth 和 ScanNet)主要关注单实例场景的不足
IMIM 的引入为评估模型在多实例场景下的性能提供了更有效的工具,也为该领域的研究提供了新的方向。
实验验证:IMD 的卓越性能
在多个基准数据集上的实验结果表明,IMD 框架取得了显著的性能提升:
多实例匹配性能
在新提出的 IMIM 基准上,IMD 相比现有方法实现了 12% 的匹配准确率提升。
这一结果充分验证了 IMD 在处理多实例场景时的有效性,证明了其通过生成式扩散模型捕捉实例级细节的设计思路的正确性。
相对位姿估计
在户外 MegaDepth 和室内 ScanNet 数据集上,IMD 在相对位姿估计任务中取得了新的 state-of-the-art 结果。
特别是在 ScanNet 数据集上,IMD 相比最佳模型在 AUC@5° 指标上提升了 24.6%,展现出强大的泛化能力。
单应性估计和视觉定位
在 HPatches 数据集的单应性估计任务中,IMD 相比最佳半稠密方法在 @3px 指标上提升了 2.7%。
在 InLoc 数据集的视觉定位任务中,IMD 在 DUC2 子集上超越了所有现有方法,并在 DUC1 子集上与顶级方法表现相当,证明了其在不同任务环境中的适应性。
消融实验:深入理解 IMD 的工作机制
通过一系列消融实验,研究者深入分析了 IMD 各个组件的贡献:
视觉表示的影响
实验表明,扩散模型的内部表示比对比学习模型(如 DINOv2)和判别性模型更适合特征匹配任务,尤其是在多实例场景中。
这验证了选择生成式扩散模型作为特征提取器的合理性。
跨图像交互的重要性
移除 CIPM 模块中的交叉注意力机制或使用单独提示会导致性能下降,证明了图像对之间交互的重要性。
CIPM 模块能够有效捕捉跨图像关系,从而提高匹配准确性。
扩散时间步的选择
实验发现,当扩散时间步 t=0 时(即使用干净图像作为输入),模型性能最佳。
随着 t 的增加,噪声水平提高,特征质量下降,这为扩散模型在特征提取中的最佳应用方式提供了指导。
结论与展望
IMD 框架通过引入生成式扩散模型和跨图像交互提示模块,成功弥合了视觉基础模型与图像特征匹配任务之间的差距。
其核心贡献在于:
1)识别了基础模型应用于特征匹配时的不匹配问题及关键挑战
2)提出了 IMD 框架,包括新型特征提取管道和跨图像交互模块
3)建立了 IMIM 基准,为多实例匹配性能评估提供了新的标准
4)在多个基准上取得了 state-of-the-art 结果,验证了方法的有效性
这项研究不仅为图像特征匹配领域提供了新的技术范式,也为视觉基础模型在下游任务中的有效应用提供了新的思路。
未来,研究者计划进一步探索如何更好地利用基础模型的能力,并将 IMD 框架应用于更多实际场景中。
对于计算机视觉领域的研究者和从业者来说,IMD 的提出标志着特征匹配技术进入了一个新的阶段,为解决复杂场景下的视觉理解问题提供了强有力的工具。
随着基础模型的不断发展和类似 IMD 这样的适配框架的出现,我们有理由期待计算机视觉系统在真实世界中的应用将更加广泛和深入。