【论文翻】Deep learning and multi-modal fusion for real-time multi-object tracking-CSDN博客

文章目录

Deep learning and multi-modal fusion for real-time multi-object tracking:Algorithms, challenges, datasets, and comparative study——深度学习与多模态融合在实时多目标跟踪中的应用：算法、挑战、数据集和比较研究
摘要
1. 引言
2. 典型基线
3. State-of-the-art Methods for Real-time MOT

Deep learning and multi-modal fusion for real-time multi-object tracking:Algorithms, challenges, datasets, and comparative study——深度学习与多模态融合在实时多目标跟踪中的应用：算法、挑战、数据集和比较研究

摘要

实时多目标跟踪（MOT）是一项复杂的任务，涉及到检测和跟踪多个目标。目标被检测到后，会被分配标记，并实时跟踪其轨迹。科学界对在智慧城市背景下利用MOT技术的可能性充满了兴趣。其主要关注领域包括智能交通、车辆和行人检测、人员监控以及公共安全。近年来，深度学习技术的发展使得有效应对实时MOT任务的挑战并提高跟踪性能成为可能。智慧交通应用中的环境感知在很大程度上依赖于传感器数据融合。在交通场景中，一个深思熟虑的方法是利用传感器和摄像头的组合来检测和跟踪目标，同时有效地收集有价值的数据。然而，当对象处于运动状态、外观发生复杂变化或场景拥挤时，检测和跟踪面临挑战。本文探讨了实时多目标跟踪任务的基础标准。我们优先考察了通过对广泛使用的基准数据集和指标进行全面分析，来衡量定量指标。本研究还探讨了在实时多目标跟踪算法中已建立的嵌入技术和多模态融合方法。每种策略将根据预定义的原则进行分类和评估。本文提供了各种MOT策略的全面分析和可视化表示。最后，本文旨在概述MOT任务当前面临的挑战以及未来可能的目标。

1. 引言

实时多目标跟踪是计算机视觉领域中的一项基本且关键的任务。其主要目标是在视频序列中检测和跟踪多个运动目标，同时保持它们在连续帧中的个体身份。近年来，在实时多目标跟踪（MOT）领域取得了显著的进展。这些进展主要归功于深度学习方法与多模态融合技术的成功结合。实时多目标跟踪具有各种在线和实时应用需求，如智能城市交通系统[1]、人群监控[2]和自动驾驶汽车[3]。

从卷积神经网络（CNN）到深度卷积神经网络（DCNN）的发展，结合了深度学习方法（DLM）和基于检测的跟踪（TBD），为实时MOT的发展做出了重要贡献[4–6]。DCNN能够通过提取图像特征并预测目标位置来实现目标检测和跟踪[7,8]。TBD用于优化跟踪器的判别模型。根据输出的检测结果，在未来帧中定位目标，然后相应地链接和生成目标跟踪器[4,9]。这提升了检测和跟踪过程，更好地应对了使用多摄像头进行的在线MOT任务的挑战。

然而，实时MOT任务仍然非常具有挑战性。许多算法由于视角变化而受到影响。视角有限，无法提供多种视角。因此，单摄像头技术的算法容易受到目标速度变化、物体运动和摄像头引起的遮挡以及检测错误的影响[10,11]。

在这种情况下，该技术无法有效定位多个目标、提取特征、创建边界框回归检测，并导致特定外观信息的映射或匹配不当[6,12]。基于跟踪检测框架的MOT算法如图1所示。
在这里插入图片描述

实时MOT任务的主要过程可以分为两个部分，即嵌入模型和关联算法。在多个输入视频帧的情况下，通过嵌入和关联方法估计目标的位置和跟踪身份。随着DCNN学习的进步，嵌入技术在MOT中的目标位置估计和身份关联中发挥着重要作用。

一些嵌入方法结合了多任务头[13–15]，包括重新识别（re-ID）、目标分类和边界框回归。一些嵌入技术考虑了时空相关性[16,17]，将目标运动和外观信息结合在一起。有些研究利用了目标与背景之间的关系，包括全局和局部信息的注意力和相关性，来学习轨迹嵌入[18–20]。得益于目标检测技术的进步，基于检测的跟踪（TBD）已成为实时MOT的流行策略。

现有的大多数方法集中于通过数据关联算法解决MOT问题。这一部分可以分为两类：离线方法和在线方法。

离线方法[21–23]利用未来帧来跟踪目标，这使得这种方法在实际应用中不够可行。相比之下，在线方法[24,25]通常使用过去和当前帧来跟踪目标，并取得了先进的性能。

多模态融合的基本原理涉及其整合不同数据类型的能力，包括跨各种光谱带拍摄的图像或从不同来源获得的传感数据。此整合过程旨在提高跟踪系统的精度和鲁棒性。

多模态图像融合在广泛领域中都是一个关键组件，包括但不限于医学成像和自动驾驶导航。在医学成像领域，整合来自磁共振成像（MRI）、计算机断层扫描（CT）、正电子发射断层扫描（PET）和超声成像等数据已显著提高了诊断精度和治疗策略的制定[26]。同样，在汽车工业中，实时多传感器融合框架的发展也取得了显著进展。该框架整合了来自相机、雷达和激光雷达的数据。结果表明，这种方法在目标跟踪中非常有效，凸显了其在改善自动驾驶技术方面的潜力[27]。

实时目标跟踪领域中的一个重大挑战是需要在处理传感器数据中固有的噪声和偏差时确保准确性。例如，加速度计的校准精度可能对跟踪算法的可靠性产生重大影响[28]。为应对这些挑战，近期的研究提出了如扩展卡尔曼滤波器（EKF）等新方法，以在高速应用中整合不同的检测输入[29]。此外，还引入了如SiamMMF等多模态、多级融合模型。这些模型采用特征级或像素级融合技术来提高RGB-T目标跟踪场景中的跟踪性能[30]。

目前，许多研究[31–34]仅总结了关于一般检测技术和基于视觉跟踪的MOT文献，而未深入探讨基于在线MOT的嵌入方法、深度学习方法和实时MOT中的多模态融合方法。在过去几年中，若干提出的方法在实时MOT中表现出了显著的性能提升。它们通过整合TBD范式并降低错误检测率显著提高了跟踪性能[35,36]。因此，有必要总结和分析现有的基于MOT的嵌入方法、基于深度学习的在线实时MOT方法以及实时MOT中的多模态融合方法，以为进一步研究铺平道路。

因此，本文系统地回顾了基于深度学习的方法和在线MOT算法的相关进展，并讨论了它们的不同方面。如图2所示，本文的主要贡献如下：
• 分析并展示了近年来流行的典型基线应用原则，如次级和主要检测器。
• 描述了相关算法的模型和应用，列出并分析了适用的典型嵌入算法、实时MOT算法和多模态融合方法，并展示了可视化结果。
• 探讨了近年来MOT面临的挑战，并从不同角度审视了实际应用场景，识别潜在的未来趋势和方向。
在这里插入图片描述

本文的组织结构如下：第2节介绍了MOT的典型基线。第3节描述了基于深度学习嵌入方法和实时MOT关联算法的分类。第4节描述了基于MOT任务的主要数据集。第5节详细介绍了MOT任务的评估标准。第6节展示了MOT的典型算法和可视化结果。第7节描述了MOT任务的挑战、实际应用场景和未来方向。最后，第8节为本文的结论。

2. 典型基线

单阶段检测器和双阶段检测器在多目标跟踪（MOT）领域被广泛应用作为目标检测技术。实时处理在MOT中扮演着至关重要的角色，因为许多应用场景需要快速响应和实时处理能力。众多研究优先考虑快速且准确的主要和次级检测器的发展，以促进实时MOT的实现。近年来，区域卷积神经网络（R-CNN）、YOLO（You Only Look Once）、FAST R-CNN 和 FASTER R-CNN等深度学习算法被广泛用作MOT中的主要和次级检测器。上述技术以其卓越的精度和快速的输出能力而闻名，在各种实际应用中表现出了显著的有效性。本节将对多目标跟踪领域常用的基线进行全面概述。

2.1. 双阶段检测器

双阶段检测器遵循传统的目标检测流程，包括目标区域提议和目标分类。首先，利用传统方法和深度网络提出目标区域。然后，根据从该区域提取的特征完成分类任务，从而提高跟踪的准确性和效率。

2.1.1. R-CNN

R-CNN（区域卷积神经网络）[37]是一种目标检测算法。它可用于识别和跟踪交通目标，如行人和车辆。通过检测汽车和行人的位置和速度等信息，可以提高智能交通的效率和安全性。具体而言，R-CNN首先使用如选择性搜索等算法从图像中提取一组候选区域，这些区域通常是目标可能出现的矩形区域。对于每个候选区域，R-CNN利用包含该候选区域目标信息的卷积神经网络（CNN）提取特征。

随后，使用分类器来识别目标，确定该区域内是否存在目标及其具体类别。R-CNN利用回归模型准确确定被分类为目标的候选区域的位置，特别是包围目标的边界框。通过在不同帧中匹配目标边界框，可以实现目标跟踪。最终，得到了期望的结果。R-CNN的目标检测过程如图3所示。
在这里插入图片描述

2.1.2. FAST R-CNN

FAST R-CNN [38] 是一种目标检测算法，能够快速而准确地识别图像中的多个目标。在交通场景中，它可以检测图像中的目标并输出其位置和类别信息。具体而言，FAST R-CNN可以作为检测模块使用，以识别图像中的每个目标。然后，将这些目标的位置信息和大小等输入到跟踪模块中。

在当前帧中检测到的目标会与前一帧中跟踪的目标进行匹配，以确定它们的对应关系。根据匹配结果，更新每个目标的状态信息，包括位置和速度等。如果当前帧中出现了新目标，它也需要被添加到跟踪列表中。跟踪模块可以使用这些信息跟踪每个目标，从而实现多目标跟踪。FAST R-CNN仅对整个图像使用一次CNN特征提取器，然后将提取的特征映射到所有候选区域，从而避免了对每个区域进行特征提取。这种共享特征提取器的方法可以显著减少计算量，提高算法的实时性能。与其他目标检测算法相比，FAST R-CNN具有更快的检测速度和更高的准确性，因此在多目标跟踪中具有广泛的应用前景。此外，FAST R-CNN可以与其他跟踪算法结合，以提高跟踪的准确性和稳定性。

2.1.3. FASTER R-CNN

FASTER R-CNN [39] 是一种基于深度学习的目标检测算法。它采用两种网络结构：一种用于生成候选区域，另一种用于对这些候选区域进行分类和边界框回归。在实际场景中，FASTER R-CNN可以检测和跟踪诸如行人和车辆等目标，并生成这些目标的候选区域。然后，跟踪模块可以使用这些候选区域的位置和大小等信息跟踪每个目标，实现多目标跟踪（MOT）。

此外，FASTER R-CNN通过引入区域建议网络（RPN）算法来生成候选区域。RPN算法比传统的选择性搜索算法更高效。它通过在特征图上滑动窗口生成候选框，并且可以共享特征提取器，从而进一步减少计算工作量。这种优化可以显著提高算法的实时性能，使得FASTER R-CNN在交通场景中更加适用，实现实时MOT。

2.2. 单阶段检测器

与双阶段检测器不同，单阶段检测器将目标检测任务视为回归/分类问题。在一级检测器中，直接预测图像的边界框，而无需区域提议步骤，从而提高了检测速度和准确性。

2.2.1. YOLOv4

YOLOv4 [40] 是一种用于目标检测和识别的神经网络模型。它能够同时检测图像和视频中的多个目标。在交通场景中，YOLOv4能够处理视频或图片，识别车辆和行人。检测到的目标需要与前一帧中的目标进行匹配，以确定它们是否属于同一个对象。一旦匹配完成，就可以在整个视频序列中跟踪该目标。此外，YOLOv4采用了一系列模型优化方法，包括跨层连接、空间金字塔池化（SPP）结构、路径聚合网络（PAN）结构等。这些方法减少了模型的计算量和参数数量，同时保持了高精度并提高了模型的实时性能。

2.2.2. YOLOv5

YOLOv5是一种基于深度学习的目标检测模型[41]。它能够实时检测和定位图像或视频中的各种目标。YOLOv5模型能够在现实场景中检测所有目标，并利用目标检测的结果进行运动预测模块。通过对目标过去轨迹的分析和建模，可以预测目标的未来位置，从而提升跟踪精度和实时操作效率。目标根据其尺寸、形状、颜色和其他相关特征进行分类。每个目标的识别通过识别车辆的车牌来实现。

在上述过程中，YOLOv5通过检测和分类目标可以更准确地跟踪和识别每个目标。同时，YOLOv5具有实时性和高准确性，能够在交通场景中快速准确地检测和定位目标，以满足实际应用需求。

2.2.3. YOLOv6

YOLOv6 [42] 是一种基于深度学习的目标检测模型，使用卷积神经网络（CNN）从图像中提取特征，并使用预测框来识别检测到的目标。YOLOv6可以实时识别和定位图像或视频中的多个类别的目标，并输出其位置、类别和置信度信息。这有助于交通管理部门监控和管理交通流量，确保道路安全和高效使用。针对多目标跟踪，YOLOv6可以与其他算法结合使用，以提高准确性和鲁棒性。

例如，可以使用相关滤波器跟踪目标，使用YOLOv6检测新出现的目标。还可以利用深度学习中的重新识别（re-ID）技术来识别目标，从而更好地跟踪多个目标。YOLOv6在保持准确性的同时优化了模型大小，减少了模型计算的时间和内存占用，从而提高了实时性能。总的来说，YOLOv6在现实场景中的应用非常广泛。

2.2.4. FairMOT

FairMOT [13] 是一种基于深度学习的MOT算法。它使用TBD方法实现对交通场景中车辆、行人和其他物体的实时跟踪。具体来说，首先使用目标检测算法检测视频帧中的目标，并获得目标的位置、大小和类别等信息。然后，使用深度学习模型对每个检测到的目标进行特征提取。每个检测到的目标被视为前一帧和当前帧中的一个状态，并使用相关滤波算法预测和估计目标状态。

在当前帧中检测到的目标将与前一帧中的目标进行匹配，利用匈牙利算法实现目标关联。目标关联完成后，可以基于目标的状态估计和跟踪历史进行连续跟踪。当目标被遮挡或离开视野时，可以使用re-ID技术识别目标，以确定它是之前跟踪的目标还是新目标。这允许对目标进行重新识别和跟踪。

FairMOT采用在线目标检测和跟踪的方法，特别是称为同时目标检测和跟踪（Siamese Tracking）。该处理算法专注于当前帧中可见的目标，消除了处理整个视频的需求，从而提升了实时性能。

2.3. 单阶段和双阶段检测器的结合

在实际场景中进行目标检测和跟踪时，考虑单阶段和双阶段检测器的优缺点是非常重要的。单阶段检测器对目标的初始位置和尺度的适应性使其能够实现精确的定位和检测。然而，这种优势也伴随着相较于其他检测方法而言的速度降低。相比之下，双阶段检测器通过使用精密算法来有效地细化和处理获得的检测结果，从而实现了检测速度的提升。然而，值得注意的是，在实现目标检测的准确性和稳定性方面，可能存在某些权衡。

因此，目标检测算法的选择取决于特定的应用场景和具体要求，以便在检测精度和速度方面达到最佳效果。为了充分利用一级和二级检测器的优势，同时克服它们的缺点，文献 [43] 中的作者提出了一种新的 RefineDet，其在效率上与一级检测器相当，但在准确性上优于二级检测器。

到目前为止，我们已经介绍了各种检测器及其优缺点。接下来，我们将介绍一些最新的多目标检测和跟踪方法。

3. State-of-the-art Methods for Real-time MOT

3.1. 嵌入方法用于MOT

嵌入方法是目标位置估计和ID关联的关键。与其他计算机视觉任务不同，MOT中的嵌入方法具有很大的变异性。其通常的快速处理速度、低功耗和低延迟使得在MOT任务中能够快速处理大量数据，并实时输出结果。在本节中，我们将常用的MOT嵌入方法分为四类：单帧嵌入、跨帧联合嵌入、序列嵌入和轨迹嵌入。本文旨在通过介绍代表性算法并评估其优缺点，为研究人员提供对每类方法的全面分析。每类方法将详细讨论。

3.1.1. 单帧检测嵌入

单帧检测嵌入通过端到端的学习过程同时学习检测和再识别特征。网络学习每个检测的独特特征，如下所示，给定输入帧 𝑋:
$\{ \mathbf{z}_i \mid i = \{1, 2, \ldots, |\mathcal{D}|\} \} = f(\mathbf{X}),$
其中 $|\mathcal{D}|$ 是输入帧中的检测数量， $\mathbf{z}_i$ 是与检测 $\mathcal{D}_i$ 对应的嵌入。

单帧检测嵌入方法主要基于每个视频帧中的目标检测和特征提取结果来匹配目标。由于单帧嵌入方法只处理单帧图像，可以避免处理整个视频序列的复杂性和计算成本，从而提高MOT的实时性能。以前的研究使用了最前沿的预训练目标检测系统，能够迅速而准确地识别视频帧中的目标，无需额外训练。

例如，文献[44]旨在提高嵌入方法与其他网络模块的兼容性，这有助于提高MOT任务的性能。这些改进通常包括微调预测时机，并确保跟踪过程中的平滑过渡。另一方面，文献[45]通过修改实例级嵌入训练以适应特定MOT要求，从而实现更准确的目标定位和数据关联。这种方法通常涉及改进嵌入过程，以确保更准确和高效的跟踪。

文献[15]提出了一种新的外观嵌入模型用于目标定位[46]和数据关联。该模型使用创新的嵌入技术实现高效的数据关联，显著降低了计算成本，提高了MOT系统的实时能力。

例如，文献[13]将一种独特的聚合算法[16,47]应用于嵌入目的的网络模型[48]。该方法通过先进的嵌入策略减少检测和跟踪过程中的计算工作量，从而提高了目标跟踪的整体准确性。

联合学习嵌入检测和再识别（re-ID）方法关注于减少计算时间和提高模型准确性，通过端到端训练和优化模型。在训练过程中，模型同时优化检测和再识别任务，使得模型能够提高计算速度和实时性能而不妨碍准确性。

文献[13,24]提出了一个将检测和再识别机制融合到统一处理过程中的框架。该框架采用特殊的训练方法，利用历史数据中的特征信息优化特征提取过程，从而提高特征信息的时效性和相关性。

文献[14]考虑了目标的全局语义信息，通过将学习的特征表示分解为两个部分：检测和再识别，从而提高了效率。这种方法通过分析不同数据点之间的关系来减少计算成本，并提高系统的实时性能。该方法通过识别和关联关键数据点来实现。

文献[49]提出了一种数据增强策略。该策略通过解耦不同任务的处理，允许系统同时学习基于身份的特征并进行实例分割，从而提高了系统的实时性能和准确性。这些方法并不直接依赖深度学习技术，但在效率和准确性方面仍取得了显著成果。

3.1.2. 跨帧联合嵌入

跨帧嵌入是联合学习多帧图像外观和时间特征的重要工具。具体来说，跨帧联合嵌入方法通常通过创建跨帧关联图来实现对象跟踪。这种技术将历史帧中的目标与当前帧中的目标进行关联，然后使用嵌入向量的相似性来确定目标的身份，从而实现跨帧对象跟踪。以下方程可以表示嵌入：
$\{ \mathbf{z}_i^t \mid i = \{1, 2, \ldots, |\mathcal{D}^t|\} \} = f([\mathbf{X}_{t-\tau}; \mathbf{X}_{t-\tau+1}; \ldots; \mathbf{X}_t]),$
其中 $[\mathbf{X}_{t-\tau}; \mathbf{X}_{t-\tau+1}; \ldots; \mathbf{X}_t]$ 表示从 $\tau$ 到 $t$ 的多个帧的连接。

在MOT任务中，大多数工作 [16,17,50,51] 专注于利用嵌入方法学习和理解时空特征映射 [52]。这些方法的核心在于通过优化算法和系统架构来提高模型的准确性和实时处理能力。

例如，一些方法 [53–55] 从单独的帧中提取特征，并在任务特定的框架中聚合这些特征，以构建和理解时间序列之间的关系。这种方法的优势在于使用高效的特征提取和聚合策略，以减少计算负担并提高模型的整体准确性。以下是两个子类别的描述：

(1) 多帧时空嵌入

多帧时空嵌入可以表示为：
$\mathbf{F}^t = f([\mathbf{X}_{t-\tau}; \mathbf{X}_{t-\tau+1}; \ldots; \mathbf{X}_t])$
$\{ \mathbf{z}_i^t \mid i = \{1, 2, \ldots, |\mathcal{D}^t|\} \} = g(\mathbf{F}^t),$
其中 $\mathbf{F}^t$ 是从骨干嵌入网络 $f(\cdot)$ 中获得的中间特征映射，来源于连续帧 $[\mathbf{X}_{t-\tau}; \mathbf{X}_{t-\tau+1}; \ldots; \mathbf{X}_t]$ ， $g(\cdot)$ 是生成检测项和轨迹片段最终嵌入的头网络。

例如，文献 [51] 利用嵌入技术理解和处理目标的时空特征。该方法通过综合和分析多个特征帧，并以端到端的方式进行关联和检测，从而生成处理过程。这种方法通过建模不同帧中的对象特征并生成更新跟踪器的输出，提高了MOT的效率。此外，文献 [56] 采用特定框架处理分割、检测和跟踪。通过聚合多个帧的特征图，并结合集成嵌入方法进行相关分析和预测，从而提高了预测的准确性和效率。

文献 [16] 基于网络模型 [57] 从原始视频帧中获取嵌入的时空轨迹信息。这些方法使用逻辑推理策略处理长期特征动态，将目标状态的变化映射到连续的轨迹图上，以实现MOT的准确和稳健的实时执行。通过使用网络模型学习时间一致性，该方法可以将变化的运动特征纳入框架中。然而，它也增加了模型的计算复杂性和计算成本。当前的时空嵌入通常考虑多个帧的联合嵌入，这增加了模型的计算复杂性和计算成本。实现高实时性能需要在未来的工作中进一步研究。

(2) 头部级特征聚合嵌入

与多帧时空嵌入方法不同，这一子类别的方法通常仅使用最近几帧的特征进行聚合，而不是整个视频。这种方法可以显著减少计算量并提高算法的实时性能。可以表述如下：
$\mathbf{F}^t = f(\mathbf{X}^t),$
$\{ \mathbf{z}_i^t \mid i = \{1, 2, \ldots, |\mathcal{D}^t|\} \} = g([\mathbf{F}_{t-\tau}; \mathbf{F}_{t-\tau+1}; \ldots; \mathbf{F}^t]),$
其中 $f(\cdot)$ 和 $g(\cdot)$ 分别表示骨干和头网络。

在特征图聚合方面，一些方法强调通过整合帧对的特征图来提高预测准确性。例如，文献 [53] 提出了在线模型 CTracker，通过采用成对回归并通过注意机制将检测和认证结合在特征图中，从而简化了检测和跟踪过程。

文献 [58] 在区域基对象中心化和预测中，通过链接相邻帧的特征图，进一步提取密集目标线索。该策略消除了冗余计算，从而增强了系统的实时能力。类似地，文献 [59] 通过将连续特征图对输入到编码器中，并专注于当前帧的块，提高了轨迹预测，减少了计算开销并改善了实时性能。

其他工作则集中在密集关联的聚合嵌入的研究上。例如，文献 [54] 提出了深度亲和网络。它利用来自不同层的特征进行高效亲和计算 [60]，从而确保可靠的在线跟踪。类似的方法，如 [54,61] 的联合匹配头，用于将来自帧对的嵌入与运动预测算法结合，以减少计算需求同时提高实时性能。

此外，文献 [62] 使用专门的卷积技术来学习多帧密集嵌入聚合中的偏移和掩膜估计，实现了计算效率的显著提升。与多帧时空嵌入相比，头部级聚合嵌入方法使用共享骨干单独编码每帧，这大大减少了计算成本并具有良好的实时性能。

3.1.3. 序列嵌入

序列嵌入方法通过从先前嵌入的数据到当前嵌入的信息学习一个动态更新变换。该方法有助于在需要实时性能的应用场景中提高跟踪的准确性和效率。其基本思想是对每个目标的特征向量进行排序，并利用序列中的信息来跟踪目标的位置和状态。这种嵌入方法表达如下：

$\mathbf{z}_{t,i} = f(\mathbf{z}_{t-1,i}, \mathbf{x}_{t,i}) \, , \tag{7}$

其中， $\mathbf{z}_{t-1,i}$ 表示历史嵌入，而 $\mathbf{x}_{t,i}$ 表示当前状态的输入。

一些工作利用序列嵌入来建模目标运动特征。例如，[63] 提出了一个双系统，该系统结合了嵌入技术以预测非线性运动、提取跟踪点并从目标运动信息中构建长轨迹。这种方法不仅简化了计算要求，还增强了实时跟踪能力。

[61] 的作者提出了一种集成检测和跟踪的模型。该模型依赖于嵌入目标运动信息和融合运动约束，以提高多目标跟踪的准确性和速度。

一些工作还考虑了序列嵌入特征的外观。[64] 的作者提出了一个统一模型，将嵌入关联与位置预测结合，从而通过连接目标注意力和聚合方法提高鲁棒性。

[65] 的作者提出了一种基于长期跟踪信息评估潜在轨迹的方法。该方法将当前节点的外观和状态特征嵌入作为输入，并实现了显著的实时性能。

[66] 的作者介绍了一种端到端可训练的检测和跟踪方法，该方法利用递归和时间存储模块来识别当前帧中的目标身份和位置。此外，[67] 的作者设计了一个多轨道聚合模块，结合了自适应训练策略，以实现出色的实时跟踪性能。

[68] 的作者设计了一个基于自编码神经网络的网络。该网络通过学习所有外观和运动线索来重建目标轨迹。

序列嵌入技术是一种实用的方法，可以提高跟踪效率并减少计算时间。该技术利用历史轨迹编码方法，消除了重复检测和特征提取的需要。另一方面，在跟踪过程中，只需分析当前帧和前一帧的目标状态，而无需分析整个序列。这降低了计算复杂性，提高了实时性能。

3.1.4. 轨迹嵌入

轨迹嵌入旨在通过学习目标在时间和空间中的运动模式，将每个目标表示为低维嵌入向量。与传统的多目标跟踪方法相比，轨迹嵌入减少了特征提取和匹配所需的计算，从而提高了实时性能。轨迹嵌入可以分为两种子类别：自嵌入和配对嵌入。

(1) 自嵌入

自嵌入方法减少了在检测帧中完成特征嵌入后需要在后续计算中执行的特征提取次数，从而提高了计算效率。自嵌入可以表示为：

$\mathbf{z}_i = f(\mathcal{U}_i) \, , \tag{8}$

其中， $\mathcal{U}_i = [\mathbf{D}_{t-\tau,i}; \mathbf{D}_{t-\tau+1,i}; \ldots; \mathbf{D}_{t,i}]$ 是第 $i$ 个轨迹块，包含从局部中间预测的同一目标的顺序检测。

一些工作将每个轨迹视为一个无序集合。学习轨迹嵌入类似于集合分类问题。例如，[69] 的作者通过结合不同的损失函数优化轨迹嵌入的学习，从而改进与相关任务的实时性能。此外，[70] 的作者提出了一种新的实例-轨迹匹配目标，以提高轨迹提取和跟踪性能。

许多工作还将时间顺序融入嵌入方法中，以更好地学习时间线索。例如，[71] 的作者通过选择代表性检测来减少目标检测的干扰，这有效地提高了多目标跟踪的实时性能，并减少了目标检测的干扰。[72] 的作者通过图形变换网络结合了时空和外观特征进行轨迹嵌入。该方法在实时多目标跟踪评估中取得了显著的性能提升。[18] 的作者通过充分利用运动信息解决了长期跟踪的相关性问题。该方法通过学习轨迹之间的相互作用来改善模型性能。

与其他轨迹嵌入方法相比，自嵌入方法通常使用轻量级神经网络模型来计算目标嵌入向量，因此具有更快的推断速度和较低的计算成本。这使得自嵌入方法能够实现实时多目标跟踪。

(2) 配对嵌入

与传统跟踪方法相比，配对嵌入技术只需学习一次目标的向量表示，从而可以快速匹配每个新的视频帧。该策略的主要点如下：

$\mathbf{z}_{i,j} = f(\mathcal{U}_i, \mathcal{U}_j) \, , \tag{9}$

其中， $\mathbf{z}_{i,j}$ 是轨迹 $\mathcal{U}_i$ 和 $\mathcal{U}_j$ 的配对嵌入。

一些工作通过检测和轨迹之间的关系进行建模。这意味着公式中的 $\mathcal{U}_i$ 只能包含一个检测。例如，[73] 的作者在一个二分类框架中使用 Softmax 进行配对检测，重点关注两个输入的比较以实现自适应外观建模。

受到 [74] 中目标关系模块的启发，[75] 的作者深入研究了轨迹-目标对的特征表示。这种方法通过增强对目标外观、位置和拓扑线索的学习来提高每个轨迹-目标对的相似性测量。

[76] 的作者使用匹配网络嵌入轨迹对的检测特征，以实现有效的相关性和匹配。通过利用嵌入策略，该方法在模型的实时性能上显示出显著改进。[77] 的作者通过空间注意机制学习每个轨迹检测对的最终嵌入，用于获取每对检测和轨迹帧的特征。

配对嵌入方法通过学习目标之间的相似性来执行目标匹配。它主要通过将目标表示为向量并使用向量相似性来进行目标匹配，从而实现良好的实时性能。

3.2. 基于在线学习的深度学习方法评估

深度学习框架能够有效提高多目标跟踪（MOT）的性能，尤其是在不同数据关联和跟踪预测方面[78–80]。通过卷积神经网络（DCNN）学习目标外观特征，深度学习方法可以提升在线跟踪优化方法在遮挡情况中的鲁棒性和区分能力[81,82]。因此，深度学习方法（DLM）可以有效提高检测与跟踪之间的双边匹配性能以及运动预测的准确性。基于处理实时MOT各种挑战的目标和能力，我们将基于深度学习的方法分为四个主要主题。

3.2.1. 基于检测和关联的深度学习在线多目标跟踪

快速准确的物体检测算法是实现计算机视觉应用功能的主要因素之一。检测质量对提高跟踪器处理目标外观相似性、关联和生成轨迹、计算相似轨迹及减少误检测的能力至关重要[14,83]。

先进的深度学习方法（DLM）和基于时间的检测（TBD）在高效关联和生成轨迹方面严重依赖检测[84,85]。接下来，我们分析了利用深度学习技术实现实时MOT的工作。

[86] 设计了一种使用数据关联和光流的多目标在线跟踪策略。该策略通过结合不同的位置、外观、线索和运动信息来建模目标的相似性函数。然而，该方法过于依赖模板匹配光流，导致目标数据关联历史和检测效果较差。

为了解决检测质量中的上述不足，[87] 引入了一种联合跟踪分割方法。该方法通过计算匹配矩阵来建模当前观察与目标状态之间的匹配过程。在此过程中，检测质量得到提升，并在数据集（PETS2015）的实时MOT评估中取得了良好的跟踪结果。

与此同时，[88] 使用了不同置信度水平的检测器来提高检测性能。他们通过弱检测（低置信度）改进现有的检测跟踪，以使检测更具鲁棒性。然而，这种方法必须有效区分接近的目标，导致检测精度较低。

[89] 的作者将检测和轨迹进行关联，并在每个方向上设置特定的出生协方差。然而，这种方法往往导致轨迹提取延迟和较低的跟踪性能。

[90] 的作者提出了一种基于变换器的在线跟踪算法。如图4所示，该算法使用学习到的对象查询和前一帧的对象特征查询作为输入查询，可以在长时间后链接对象，从而解决了MOT任务中的对象检测和数据关联问题。

为了提高检测模块的实时性能和提取轨迹的能力，[91] 的作者提出了一种卷积神经网络（DCNN）相关滤波器。该方法利用检测器输出的语义信息生成针对小目标的建议，从而降低误检测率。

[11] 的作者将图像序列的检测结果输入到Poisson多伯努利混合滤波器中，增强了对小物体的深度检测。这在提出的多尺度目标检测器中发挥了关键作用，提高了检测质量和跟踪准确性。

随后，[92] 的作者使用有限的假设检测集来优化MOT运动模型。该方法使用具有共同处理时间相关性和空间问题特性的子图多割模型，在实时数据集上具有良好的跟踪准确性。然而，该方法对移动目标的跟踪不够准确，因此具有较高的计算成本。

[93] 的作者设计了一种基于自适应相关滤波器的MOT算法。该算法能够支持在复杂场景中具有变化运动的目标跟踪，实现高速跟踪。然而，处理遮挡和光照的困难导致跟踪性能的下降。

[94,95] 的作者提出了一种结合自上而下MOT和自下而上的运动分割的运动分割技术。该算法通过对边界框进行聚类来改进小目标的跟踪准确性。

[96] 的作者使用卡尔曼滤波器来改进在遮挡期间积累噪声的物体跟踪。该方法通过从检测器测量中计算轨迹来增强滤波器参数中的误差积累过程，从而实现对目标非线性运动的鲁棒性。

3.2.2. 基于高速跟踪和低计算成本的深度学习方法

低速算法通常难以应对速度变化的目标。目标的速度是实时多目标跟踪（MOT）中的一个常见问题，因为大多数模型的整体跟踪性能不尽如人意。

为了构建假设树用于关联和跟踪，[97] 的作者扩展了多假设追踪（MHT）框架，以适应目标外观特征的正则化最小二乘法。该方法将外观特征从深度维度特征缩小，以适应目标运动和外观变化。这些特征在实时数据集中具有较高的跟踪率，但计算成本也很高。

[98] 的作者使用了广义最小聚类图来解决数据关联问题。该算法将给定图的顶点划分为单独的簇，并构建具有最低总权重的完全连接图。然而，该方法在创建目标的长期模型方面存在挑战。

为了在保持处理速度的同时提高跟踪准确性，[99] 的作者提出了一种基于核滤波器的优先搜索窗口跟踪方法。这种方法利用跟踪失败重新建立目标的跟踪，并评估均值和最大相关值。尽管具有较高的跟踪速度和准确性，但在高速运动场景中，方法的计算成本显著。

[100] 的作者使用了检测跟踪范式来提取单目视频帧序列中的输入。通过使用从边界框图像中获得的目标信息来估计3D姿态和形状。该方法成功处理了实时多目标跟踪（MOT）数据集，实现了更快的跟踪速度和适中的计算成本。

[101] 的作者提出了一种二次卷积神经网络。该网络考虑了对象的时间邻接性进行相关数据关联，有效提高了跟踪的速度和准确性。此外，一些基于深度端到端学习的网络模型可以提取对象特征和外观描述符，从而加快跟踪速度。通过神经网络的对象检测和特征提取过程如图5所示。

[102] 的作者设计了一种增强的MOT范式，专注于基于运动的高性能预测、关联和重新连接。它融合了刚性摄像机和非刚性目标运动，以确保基于长距离运动的重新连接的鲁棒性。

实时对象跟踪和速度跟踪是目标检测、运动变化以及视觉分析和处理的关键技术[103]。

[104,105] 的作者使用FAST R-CNN生成带有边界框分类任务的局部推荐，并优化分类。FAST R-CNN和卷积层共享区域分类，CNN全连接层用于提高区域提议的处理速度。因此，该方法具有较高的跟踪速度和适中的跟踪准确性。

[106] 的作者将CNN与滤波器结合，以改进目标状态估计和数据关联。他们最小化了在线MOT的系统复杂性和计算成本，以处理3D速度、大小、位置和目标方向。该方法成功地提高了跟踪速度，同时降低了复杂性和计算成本。

3.2.3. 基于深度学习的目标不确定性在线建模方法

在线多目标跟踪（MOT）的不确定性源于检测的有限有效性以及与之对应的轨迹。这会影响各种算法在目标识别和方向预判过程中的性能。文献[107]的作者将匈牙利算法与卡尔曼滤波器特性结合，用于在目标轨迹中寻找关联。该方法以端到端的方式使用FASTER R-CNN和基于CNN的检测。然而，该方法无法处理目标外观的变化，因为它没有足够的鲁棒性来检测错误。

为了提高识别能力，文献[108]的作者在行人重识别过程中应用了基于宽残差网络的深度特征提取技术。该方法使用卡尔曼滤波器来确定目标的外观和运动特征。虽然其跟踪性能很高，但在处理拥挤和遮挡的场景时存在困难，导致跟踪过程中目标IDS率频繁变化。

为了有效区分外观相似的物体，文献[109]的作者设计了一种深度外观特征方法，通过在不同视频帧中工作来提高目标亲和力和数据关联。由于该方法在识别信息有限的裁剪补丁时存在困难，因此在实时MOT评估MOT数据集时存在误检测和误警报的问题。

文献[111]的作者提出了一种基于3D LiDAR的MOT实时框架，以解决复杂环境中对象的不确定性。该算法通过规则和基于特征的边界框定位有效地处理长期遮挡，显著减少了IDS并提高了跟踪准确性。

文献[112]的作者提出了一种多视角聚类方法。该方法利用稀疏子空间结构学习，从多个视角中获取目标的一致结构信息，以获取区分数据和准确的结构表示。

同时，文献[105,113]的作者通过将模型集成到Siamese网络中学习目标轨迹的亲和力。他们尝试将运动模型和外观模型结合起来解决问题，将检测与跟踪之间的关联分成两个阶段进行。由于该算法无法在目标运动时跟踪外观相似的目标，因此其跟踪准确性较低。

文献[114]的作者通过扩展Siamese网络来学习目标检测与轨迹之间的亲和关联，以跟踪和学习运动中的对象。该方法通过检测进行跟踪和定位，然后将目标轨迹与外观模型关联，以实现数据关联。该算法因此实现了令人满意的跟踪准确性。

文献[115,116]的作者利用其设计的在线MOT方法来处理由于目标之间的融合和遮挡导致的ID切换问题。该方法通过卷积层提取外观特征，帮助增强身份关联和外观模型的更新。

文献[117]的作者提出了一种新的在线图跟踪器。该方法使用高阶关系特征来稳定地跟踪候选对象，并恢复即使是漏检和丢失的跟踪。结果表明，该过程能够生成鲁棒的目标轨迹。

文献[118]通过结合边界框之间的局部和全局特征匹配模型来改善目标间的相似性度量。该方法使用局部特征处理噪声和遮挡，而全局特征可以展示整个图像的优势。结果表明，不同的特征表示可以过滤掉错误的目标检测。

文献[119]的作者提出了一种基于知识的图像分析系统。该系统使用基于知识的挖掘方法来检测不同图像之间物体的位置。它通过背景选择更多的体积特征，以更准确地预测跟踪目标的位置。

3.2.4. 基于CNN、亲和力和数据关联的在线学习方法

传统CNN框架产生的成本函数在近年来的研究中影响了跟踪模型的性能。这类方法主要整合和扩展深度学习技术，以处理目标数据关联和相关性。

为了增强目标轨迹的相关性，文献[120]的作者提出了具有所有相关变量的参数化成本函数，能够提高实时应用中的MOT任务。他们设计了一种端到端的最小成本网络，能够在复杂场景中进行跟踪和重识别，实现了实时MOT评估中的高跟踪准确性。

文献[121]的作者设计了互补图函数，以捕获目标的外观和时空信息。他们使用外观信息将检测与轨迹连接。因此，该算法在实时MOT评估中具有低IDS率和高跟踪准确性。

为了处理复杂MOT场景中目标关联的模糊性，文献[122]的作者使用伯努利滤波器处理目标之间的关联测量。他们直接处理输出的原始测量数据，并在数据集的实时MOT评估中实现了高跟踪准确性。

文献[123]的作者使用了不同类型的Siamese CNN拓扑结构来计算信息分布和数据流。然而，该方法在拥挤场景中难以关联和检测目标轨迹。因此，实时MOT评估中的整体性能不令人满意。

为了解决检测关联问题，文献[124]的作者提出通过四元组CNN进行视频帧之间的检测关联和学习。该方法利用运动和外观线索作为输入，并扩展了Siamese网络。然而，它在拥挤场景中未能有效关联检测，导致高IDS值。

随后，文献[125]的作者使用基于Lucas-Kanade跟踪器（LKT）和CNN检测器的运动信息构建了一个动态运动模型。该跟踪方法展现了可观的跟踪率和准确性。然而，它在复杂场景中持续跟踪时遇到挑战，导致IDS升高。

文献[126]的作者提供了一种在线学习的目标外观模型。该模型利用构建的嵌入外观过程来估计物体位置的变化，并平滑轨迹。然而，该方法在较长的跟踪周期中产生了不稳定的状态切换，影响了整体性能。

文献[127]的作者提出了一种图结构，以在线方式共同处理跟踪和检测状态。该方法利用神经信息传递网络进行数据关联，有效地提高了轨迹稳定性，实现了先进的实时性能。

文献[128]的作者设计了一种外观卷积神经网络，以获得更可靠的数据关联。该网络通过基于压缩域的跟踪CNN传播位于非关键帧中的物体运动信息。实验结果表明，该方法实现了先进的处理速度和跟踪性能。

为了增强摄像机网络的目标数据关联，文献[129]的作者提出将摄像机网络与马尔可夫决策过程（MDP）相结合进行MOT。该方法将目标轨迹与摄像机网络跟踪结果关联，并将MDP扩展到多视角框架中。这一特性使得在密集环境中有效管理外观相似的物体成为可能。

文献[130]的作者设计了一种新的在线算法，用于评估物体跟踪重识别。该方法旨在改善不同时间摄像机对目标重识别的处理。然而，由于它仅考虑摄像机场景，无法有效获取摄像机网络捕捉的动态在线跟踪场景。

文献[131]的作者使用约束域集来增强摄像机中的物体外观跟踪。该过程涉及将录制的视频分割成不同的视频片段并创建轨迹。随后生成跨摄像机轨迹匹配图，用于准确分配轨迹到不同目标。

文献[132]的作者提出了一种目标跟踪数据关联成本矩阵。该方法使用YOLOv3对实时流水线中的物体进行分类和检测，并在所提出的ISR数据集上取得了令人鼓舞的结果。