开放词汇多目标追踪框架SLAck: 联合语义、位置和外观感知的启发式跟踪

Abstract

开放词汇的多目标跟踪(MOT)旨在让跟踪器能够泛化到训练集中不存在的新类别。目前,表现最好的方法主要基于纯外观匹配。由于在大词汇量场景中运动模式的复杂性以及对新物体不稳定的分类,现有方法在最终匹配步骤中要么忽略了运动和语义线索,要么基于启发式方法应用。在本文中,我们提出了一个统一框架 SLAck,在关联的早期步骤中联合考虑语义、位置和外观先验,并通过轻量级的时空物体图学习如何整合所有有价值的信息。我们的方法消除了复杂的后处理启发式方法,大幅提升了大规模开放词汇跟踪的关联性能。无需繁琐的附加技术,我们在开放词汇 MOT 和 TAO TETA 基准上超越了之前的最新方法。
代码地址:github.com/siyuanliii/SLAck

 欢迎加入自动驾驶实战群

Introduction

多目标跟踪(MOT)传统上局限于有限的词汇,专注于如行人和车辆等类别。然而,开放词汇跟踪的出现扩展了跟踪的视野,涵盖了更多类别,但也增加了挑战,因为不同类别的物体在外观、行为和运动模式上各不相同。尽管如此,开发此类跟踪系统具有重大意义。从自动驾驶到增强现实的现实应用中,跟踪器需要超越这些词汇限制,以实现更广泛和多功能的功能。

目前,针对大词汇量跟踪的最佳 MOT 方法基于纯外观匹配。基于运动的 MOT 面临重大挑战,因为现有的运动跟踪方法依赖于卡尔曼滤波器(KF)。KF 方法依赖线性运动假设,在如行人或车辆数据集的情况下有效,但在复杂的开放词汇场景中,由于非线性物体运动和多种运动模式,这种假设失效。

图片

图片

Method

我们首先回顾了常用的多目标追踪(MOT)方法,这些方法利用了语义、运动、外观和混合线索,并探讨了它们在开放词汇追踪中直接使用时的失败之处。

图片

3.1 预备知识:MOT的各种线索

语义线索
图3总结了不同方法如何在之前的MOT文献中利用语义线索。语义线索通常在多类别MOT中扮演次要角色,通常作为一种硬分组手段,追踪器通过检测器预测将相同类别的物体关联起来。这种方法在简单任务(如在KITTI和nuScenes数据集中跟踪人类和车辆)中效果显著。然而,在开放词汇追踪中,由于分类不可靠,这种策略效果不佳,如图2所示。依赖这种不确定的分类会损害追踪性能。TETer提出使用对比类样本编码进行语义比较,摆脱硬分组,转向更可靠的软分组

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值