Local All-Pair Correspondence for Point Tracking

这篇文章介绍了一种用于视频序列中任意点跟踪的新型方法LoCoTrack。它解决了现有方法在处理纹理均匀或重复特征区域时遇到的匹配模糊问题。文章的核心贡献在于提出了一种新颖的局部全对对应(local all-pair correspondence)方法,即利用局部4D相关性来建立精确的对应关系,并结合双向对应和匹配平滑性来增强鲁棒性。此外,该方法还采用轻量级的相关性编码器来提高计算效率,并利用紧凑的Transformer架构来整合长期时间信息。实验表明,LoCoTrack在所有TAP-Vid基准测试中均取得了最高的精度,且运行速度比当前最先进的方法快近6倍。

背景知识

点对应(point correspondence)是计算机视觉中的一个基本问题,广泛应用于3D重建、自动驾驶和姿态估计等领域。最近的点跟踪任务关注于在视频中找到查询点在每一帧中的对应位置及其可见性状态。现有的方法通常依赖于构建2D局部相关图,将查询点的深度特征与目标帧的局部区域进行比较以预测对应位置。然而,这种方法在处理同质区域、重复模式或共现物体时存在困难。

研究方法

LoCoTrack通过以下核心创新来解决上述问题:

  1. 局部全对对应(Local All-Pair Correspondence):与传统的点对区域对应方法不同,LoCoTrack采用局部4D相关性,通过计算查询点周围局部区域与目标帧对应局部区域之间的所有点对匹配,建立更鲁棒的对应关系。这种方法利用了4D相关性提供的双向对应和平滑匹配特性,从而有效减少匹配模糊。

  2. 轻量级相关性编码器(Lightweight Correlation Encoder):为了处理高维的相关性体积,LoCoTrack设计了一个轻量级的相关性编码器。该编码器将4D相关性分解为两个2D卷积分支,生成紧凑的相关性嵌入,显著降低了计算复杂度。

  3. 紧凑的Transformer架构(Compact Transformer Architecture):为了整合长期时间信息,LoCoTrack采用Transformer架构。与传统的卷积方法相比,Transformer能够以较少的层数实现全局感受野,从而在保持紧凑架构的同时有效建模长期依赖关系。此外,通过使用相对位置偏差,Transformer能够处理可变长度的序列,避免了手动设计的链式过程。

实验结果

  1. 基准测试表现:LoCoTrack在TAP-Vid基准测试中取得了优异的成绩。与现有的先进模型相比,LoCoTrack在保持极轻量化架构的同时,实现了显著的性能提升。例如,其小模型变体在TAP-Vid-DAVIS数据集上的平均Jaccard(AJ)指标比CoTracker高出2.5,且推理速度比后者快6倍;与TAPIR相比,AJ提升了5.6,推理速度提升了3.5倍。

  2. 效率比较:LoCoTrack在计算效率方面表现出色。其小模型的每点FLOPs比TAPIR低4.7倍,比CoTracker低4.3倍。此外,该模型的参数量仅为8.2M,比CoTracker少5.5倍。LoCoTrack能够实时处理10^4个点,适用于近密集查询点的实时视频处理。

  3. 消融实验:文章通过消融实验验证了局部4D相关性、相对位置偏差和Transformer架构的优势。实验结果表明,这些设计选择对模型的性能提升起到了关键作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值