InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition-CSDN博客

这篇文章的主要研究内容是提出了一种名为 InstructSAM 的无训练框架，用于遥感影像中的指令导向目标识别任务。以下是文章的核心内容总结：

研究背景与动机

遥感目标识别的重要性：遥感影像中的目标识别对于大规模制图、自动化数据标注以及支持可持续发展目标（如野生动物监测、贫困估计和灾害响应）具有重要意义。
现有方法的局限性：现有的开放词汇表和视觉定位方法依赖于显式的类别提示，限制了它们处理复杂或隐式查询的能力，这些查询需要高级推理和上下文理解。此外，现有方法在遥感领域的适用性受到数据集特定标注规则和语义歧义的挑战。

提出的新任务与基准测试

InstructCDS 任务：作者提出了一个新的任务套件——指令导向的目标计数、检测和分割（InstructCDS），涵盖开放词汇表、开放性问题和开放子类场景。
EarthInstruct 基准测试：为了评估 InstructCDS 任务，作者构建了 EarthInstruct，这是第一个用于地球观测的 InstructCDS 基准测试，基于 NWPU-VHR-10 和 DIOR 数据集，包含 20 个类别，具有不同的标注规则和空间分辨率。

InstructSAM 框架

无训练框架：InstructSAM 是一个无训练框架，通过整合大型视觉语言模型（LVLM）、SAM² 和特定领域的 CLIP 模型，实现指令驱动的目标识别。
主要步骤：
1. 指令导向的目标计数：利用 LVLM 解释用户指令并预测目标类别和数量。
2. 类别无关的掩码提议：通过 SAM² 自动生成高质量的掩码提议。
3. 计数约束的掩码标签匹配：将目标检测和分割重新表述为一个受约束的掩码标签匹配问题，通过整合语义相似性和全局计数约束，高效地将类别分配给预测掩码。

实验与结果

开放词汇表设置：InstructSAM 在 NWPU-VHR-10 和 DIOR 数据集上表现出色，尤其是在目标计数和检测方面，超越了现有的通用和遥感特定模型。
开放性问题设置：InstructSAM 在开放性问题设置中也展现了稳健的性能，能够准确识别和分割图像中的所有可见目标。
开放子类设置：InstructSAM 在开放子类设置中表现优异，能够准确识别属于超类别的目标。
推理时间分析：InstructSAM 的推理时间近乎恒定，与目标数量无关，显著优于其他方法，减少了输出标记数量和整体运行时间。
消融研究：通过消融实验，作者证明了 InstructSAM 的有效性，尤其是在提示设计和模型扩展性方面。

结论

贡献：InstructSAM 通过整合 LVLM、SAM² 和 CLIP 模型，实现了高效的指令驱动目标识别，无需任务特定的训练或阈值调整。
未来工作：作者提出，未来的研究可以集中在改进掩码提议器和语义相似性计算，以进一步提高模型的性能和鲁棒性。

总的来说，这篇文章提出了一种创新的无训练框架，能够高效地处理遥感影像中的复杂指令导向目标识别任务，具有重要的理论和实际应用价值。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

项目主页地址在这里，如下所示：

官方项目地址在这里，如下所示：

摘要

遥感影像中的语言引导目标识别对于大规模制图和自动化数据标注至关重要。然而，现有的开放词汇表和视觉定位方法依赖于显式的类别提示，限制了它们处理复杂或隐式查询的能力，这些查询需要高级推理。为了解决这一问题，我们引入了一组新的任务，包括指令导向的目标计数、检测和分割（InstructCDS），涵盖开放词汇表、开放性问题和开放子类场景。我们进一步提出了EarthInstruct，这是第一个用于地球观测的InstructCDS基准测试。它由两个具有不同空间分辨率和不同标注规则的遥感数据集构建而成，覆盖20个类别，需要模型解释数据集特定的指令。鉴于遥感领域语义丰富标注数据的稀缺性，我们提出了InstructSAM，这是一个用于指令驱动目标识别的无训练框架。InstructSAM利用大型视觉语言模型来解释用户指令并估计目标数量，采用SAM²进行掩码提议，并将掩码标签分配表述为一个二进制整数规划问题。通过整合语义相似性和计数约束，InstructSAM能够在不依赖置信度阈值的情况下高效地将类别分配给预测掩码。实验表明，InstructSAM在多个任务中与专业基线相匹配或超越，同时保持近乎恒定的推理时间，无论目标数量如何，与直接生成方法相比，输出标记减少了89%，整体运行时间减少了32%以上。我们相信所提出的任务、基准测试和有效方法将推动未来在开发多功能目标识别系统方面的研究。

1 引言

遥感影像中的目标识别能够捕捉到各种环境中的大量目标和现象，为支持联合国发布的可持续发展目标（如野生动物监测、贫困估计和灾害响应）提供了丰富的信息。最近，强大的视觉语言模型（VLMs）的出现，如CLIP，开启了遥感领域开放词汇表目标识别算法的新纪元（例如检测和分割）。然而，现有的开放词汇表方法主要依赖于显式的类别提示，这限制了它们处理复杂或隐式查询的能力，这些查询需要高级推理和上下文理解。换句话说，由于遥感影像的鸟瞰视角，可见目标的丰富多样性使得任何预定义的固定类别列表不可避免地不完整，限制了其在现实世界开放性分析中的实用性。

为了解决这一问题，我们扩展了指令导向的目标检测任务，并引入了一组新的任务——指令导向的目标计数、检测和分割（InstructCDS），涵盖了开放词汇表、开放性问题和开放子类设置，如图1所示。InstructCDS任务需要模型超越固定类别集，进行更灵活和可扩展的解释，并理解复杂的用户任务需求。我们进一步提出了EarthInstruct，这是第一个用于地球观测的InstructCDS基准测试。该基准测试由两个通用的遥感目标数据集构建而成，覆盖20个类别，具有不同的标注规则和空间分辨率。EarthInstruct指导模型理解复杂用户指令，超越预定义的三种设置。

最近，视觉语言模型（VLMs）在自然图像领域的对象检测、语义分割、视觉定位和基于推理的分割方面表现出色。然而，将这些方法转移到遥感影像中存在几个挑战。首先，直接推理会导致由于自然和航空影像之间的领域差距而导致的显著精度下降。其次，大多数现有的遥感开放词汇表检测和分割方法仅在具有有限类别的数据集上进行训练，限制了它们对多样化未见类别的泛化能力。第三，传统检测器依赖于阈值来过滤预测的边界框，而在零样本场景中无法获得这样的阈值。

为了应对这些挑战，我们将指令导向的目标检测和分割任务分解为几个可处理的步骤，并提出了一个无需特定任务训练的框架，InstructSAM。首先，利用大型视觉语言模型（LVLM）解释用户指令并预测目标类别和数量，系统地设计提示以最大化模型的能力。同时，利用SAM²自动生成掩码提议。接下来，预训练在遥感影像上的CLIP模型计算预测目标类别和掩码提议之间的语义相似性。然后，我们将目标检测和分割表述为掩码标签匹配问题，通过整合语义相似性和全局计数约束，将预测类别分配给掩码提议。通过内在整合三个强大的基础模型，InstructSAM在多个任务中实现了优于通用和遥感特定的VLMs的性能，这些VLMs是在大规模目标识别数据上训练的。值得注意的是，InstructSAM的推理时间相对于预测目标的数量几乎保持不变，与直接使用Qwen2.5-VL生成边界框相比，减少了89%的输出标记和32%的整体运行时间。我们的工作为可扩展的、指令驱动的遥感目标检测和分割铺平了道路，消除了昂贵的预训练或手动阈值调整的需要。此外，无训练范式允许InstructSAM在配备通用CLIP模型时识别自然影像中的目标。

总之，我们的贡献如下：

我们引入了InstructCDS任务，该任务挑战模型解释用户提供的自然语言指令，并推断相关目标的数量和位置。
我们构建了EarthInstruct，用于在地球观测中基准测试InstructCDS，涵盖开放词汇表、开放性问题和开放子类设置以及计数、检测和分割任务。
我们开发了InstructSAM，这是一个无训练且无需置信度的框架，用于InstructCDS任务，保持近乎恒定的推理时间。
在基准测试上的实验表明，InstructSAM在目标计数方面与封闭集模型相匹配，并在开放词汇表和开放性目标识别方面超越了通用和遥感特定模型。

2 相关工作

2.1 指令导向的目标检测与分割

指令导向方法
指令导向目标检测（IOD）最初在文献 [57] 中被提出，包括四种指令设置：类别指定（开放词汇表 [76]）检测、检测所有目标（开放性问题 [39]）、在超类别内进行检测（我们称之为开放子类）以及为实现特定目标而进行的检测。Ins-DetCLIP [57] 训练了一个检测器来识别前景目标，并将其特征传递给大型语言模型（LLM），以根据用户指令生成类别。除了专门为IOD任务设计的模型外，Qwen2.5-VL [2] 在多任务指令数据上进行训练，也展示了密集目标检测的能力。然而，这两种方法都需要大量的特定任务训练数据，并且随着目标数量的增加，它们的推理时间会显著增加。

开放词汇表方法
大型词汇表目标检测和分割数据集 [67, 17, 72] 以及视觉定位数据集 [27, 23] 推动了各种开放词汇表学习方法的发展，包括知识蒸馏 [16] 和区域-文本预训练 [26, 50, 44, 34]。通过使用图像-文本对（例如 CC3M [5], WebLI2B [6]）的置信度阈值过滤的伪标签进行自训练，进一步提升了性能 [49, 44, 89, 83]。然而，伪标签的质量对所选阈值非常敏感 [49]，并且这些方法需要预定义的目标类别，限制了它们在多样化场景中的灵活性。

开放性问题方法
GenerateU [39] 首次提出了开放性目标检测（OED）问题。同期的工作，如 DetCLIPv3 [83]、Florence-2 [79] 和 DINO-X [62] 引入了生成性框架，使用语言模型联合预测目标类别和边界框。然而，构建具有边界框和标题对的大规模数据集是资源密集型的。VL-SAM [40] 提出了一种无训练的方法，通过将注意力作为提示，但其迭代掩码细化和多提示集成策略计算成本高昂。

2.2 遥感领域中的指令导向目标检测与分割

最近在视觉语言模型（VLMs） [58, 43] 方面的进展也推动了遥感领域的开放词汇表学习。来自 OpenStreetMap [19] 的多样化语义标签以及由 LVLMs 生成的标签推动了遥感影像中对比语言-图像预训练的发展 [90, 73]。继通用开放词汇表学习框架之后，遥感开放词汇表检测 [37, 75, 54, 22] 和分割 [87, 84, 21, 31] 方法应运而生。然而，它们的人工标注训练数据仅限于少数类别 [33, 74, 69]，限制了它们对分布外或零样本场景的泛化能力。尽管一些 LVLMs 可以支持遥感任务，如单类别目标检测 [28, 47, 25]、视觉定位 [52, 55]、指代表达分割 [92, 53]、基于场景的对话生成 [65] 和场景图生成 [47]，但它们无法遵循复杂的推理指令，例如开放词汇表和开放子类目标检测。为了标注遥感目标检测的大量词汇表训练数据，LAE-Label [54] 使用通用 LVLM [8] 为裁剪的掩码提议预测类别。然而，这种方法丢失了全局上下文，无法进行准确的类别分类。

相比之下，我们的 InstructSAM 采用无置信度范式，无需特定任务的预训练或微调，并且无论目标数量如何，都能保持近乎恒定的推理时间。

3 EarthInstruct：遥感领域中用于指令导向目标识别的基准测试

3.1 指令设置

为了支持遥感中的实际应用，如大规模制图和图像标注，我们为指令导向目标计数、检测和分割（InstructCDS）定义了三种不同的设置：

开放词汇表（Open-Vocabulary）：根据用户指定的类别进行计数、检测和分割。
开放性问题（Open-Ended）：在不指定类别的前提下，对所有可见目标进行计数、检测和分割。
开放子类（Open-Subclass）：对超类别中的目标进行计数、检测和分割。

我们使用 NWPU-VHR-10 [9] 和 DIOR [33] 数据集构建了 EarthInstruct，这些数据集因其广泛的使用、多样化的传感器、分辨率和标注规则而被选中。至关重要的是，这些数据集的标注规则可能与常识相悖（例如，排除低分辨率图像中的车辆）或存在语义歧义（例如，“桥梁”与“立交桥”），反映了原始标注者的特定目标（见图 2）。因此，简单的指令（如“计数车辆”）无法捕捉数据集约定或用户意图所需的细微差别。EarthInstruct 因此要求模型解释详细指令，以澄清目标定义并处理数据集特定的规则（例如，“不要计数空间分辨率为 1 米以下的图像中的车辆”）。为了确保与数据集约定和用户需求一致的公平评估，我们相应地设计了提示，但禁止使用图像特定的提示，以保持在大面积应用中的可扩展性，因为在这些应用中，无法为每张图像提供事先的内容知识。

3.2 评估指标

多类别目标计数
在 FSC-147 [59] 和 RSOC [15] 等基准测试中使用的标准计数指标，如平均绝对误差（MAE）和均方根误差（RMSE），无法充分捕捉多类别评估的细微差别。它们无法区分过度计数和不足计数的错误。此外，由于未归一化，当按类别平均时，计数较大的类别可能会不成比例地歪曲总体分数。

无置信度检测器的评估指标
评估像 Florence2 [79] 或 Qwen2.5-VL [2] 这样的生成模型时，它们以没有置信度分数的方式输出检测结果，这给标准指标带来了挑战。平均精度（AP） [12] 依赖于置信度分数来对预测结果进行排序并生成精确度-召回率曲线。在没有这样的排序的情况下，标准 AP 是未定义的。此外，实际应用通常涉及使用固定阈值过滤预测结果，将所有剩余检测结果视为等效 [1, 49]。

为了解决这些问题并确保公平比较，我们采用无置信度指标：平均 F1 分数（mF1）和无置信度的平均精度（mAPnc） [35]。mF1 在单个操作点上衡量性能，适用于固定阈值部署。mAPnc 通过为所有预测分配最大置信度来适应 AP。对于无置信度模型，这些指标直接计算（结果见表 10）。对于提供分数的传统检测器（例如 [61, 4]），当置信度阈值从 0 到 1（步长为 0.02）变化时，选择最大化 mF1（使用 0.5 的 IoU 阈值）的阈值，并报告相应的峰值分数。

开放性问题和开放子类设置的评估
在开放性问题和开放子类设置中，LVLMs 可能会生成类别名称（例如，“汽车”），这些名称在文本上与真实标签（例如，“车辆”）不同。为了在评估中处理这种同义词现象，我们采用语义相似性匹配，遵循既定协议 [39, 57]。具体来说，我们使用 GeoRSCLIP [90] 文本编码器对生成的类别和真实类别进行编码，模板为“一幅卫星图像中的 {类别}”。如果生成的类别名称与真实类别的嵌入余弦相似度超过 0.95，则认为它们是等效的。这使得与生成名称相关联的预测目标可以准确地与匹配的真实类别进行评估。

4 InstructSAM

为了应对遥感目标识别中的指令遵循、领域差距和阈值敏感性挑战，我们提出了一个无训练框架，名为 InstructSAM。该框架将 InstructCDS 分解为三个协同的步骤：利用大型视觉语言模型（LVLM）进行指令导向的目标计数、通过 SAM² 进行类别无关的掩码提议，以及一个新颖的计数约束掩码标签匹配过程。这种方法避免了代价高昂的模型训练和阈值调整，提供了高效且稳健的性能。

4.1 指令导向的目标计数

4.2 类别无关的掩码提议

4.3 计数约束的掩码标签匹配

InstructSAM 的一个关键创新是将目标检测和分割重新表述为一个受约束的掩码标签匹配问题，通过整合前面步骤的输出来实现。与其使用脆弱的置信度阈值 [10, 49]，我们利用 LVLM 提供的全局计数 {numj} 来约束将语义标签 {catj} 分配给视觉掩码提议 {maski}。

其中，约束条件 (2) 确保每个掩码最多分配给一个类别。约束条件 (3) 强制每个类别的分配掩码数量与 LVLM 提供的计数相匹配。约束条件 (4) 处理提议数量少于总目标计数的情况，确保所有提议都被分配。

5 实验

5.1 实现

我们使用 GPT-4o-2024-11-20 [24]（简称为 InstructSAM-GPT4o）或 Qwen2.5-VL-7B [2]（简称为 InstructSAM-Qwen）作为 LVLM 计数器，SAM2-hiera-large [60] 用于掩码提议，以及 GeoRSCLIP-ViT-L [90] 用于相似性计算来实现 InstructSAM。对于开放词汇表设置，我们遵循先前的研究 [75, 21, 86]，将类别分为基础类别和新类别，并报告 mF1、平均交并比（mIoU）或 mAPnc。对于开放子类设置，我们设置了两个父类别：“交通工具”和“运动场地”。我们将 InstructSAM 与一系列模型进行了比较，这些模型的训练数据和能力如表 6 所示。

5.2 在 EarthInstruct 上的结果

开放词汇表设置
表 1 显示了在 NWPU-VHR-10 和 DIOR 数据集上，通用方法 [44, 49, 2] 和遥感开放词汇表分割模型 [84, 31] 的平均指标。表 10 显示了在新类别上的零样本性能，这些模型在基础类别上进行了训练 [86, 75, 21]。使用新类别图像或在完整检测数据集上训练的模型在两个额外的数据集上的评估结果见表 11。

表 1 显示，InstructSAM（尤其是使用 GPT-4o 时）在所有任务中均以最高的计数指标领先。在新类别上（见表 10），InstructSAM-Qwen 在 mAPnc 方面达到了与专门模型相当或更优的性能。这突显了 InstructSAM 的无训练、计数约束匹配优势，优于传统的或微调的方法。

开放性问题设置
表 2 总结了在开放性问题设置下的结果。InstructSAM 在 F1 分数上始终高于遥感特定的方法，包括那些在基于描述的任务上进行训练的方法 [47, 65]。值得注意的是，InstructSAM 在利用图像的全局视图以准确预测目标类别方面超越了 LAE-Label [54]。尽管在没有类别特定指令的设置中限制了进一步的提升，但 InstructSAM 仍然展现出了稳健的性能（见图 4）。

开放子类设置
表 3 显示，InstructSAM 在两个父类别上均优于或匹配 Qwen2.5-VL。当使用 GPT-4o 识别的类别提示时，OWL 在“交通工具”类别上表现出色，但在“运动场地”类别上表现不佳，这可能是因为自然图像数据集中交通工具相关类别较为常见。这些发现与开放词汇表的结果一致，通用检测器（如 Grounding DINO 和 OWL）在遥感类别上表现不佳，除了飞机、车辆和船只等类别。

5.3 推理时间分析

图 5 比较了在开放性问题方法中，配备 7B LLM 的不同方法的推理时间。InstructSAM 展现出近乎恒定的推理速度，与其他方法的线性增长形成鲜明对比。与直接将边界框表示为自然语言标记的方法不同，InstructSAM 通过减少输出标记数量，将推理时间减少了 89%，与 Qwen2.5-VL 直接生成边界框的方法相比，总推理时间减少了 32%。随着模型规模的扩大，这种优势将更加明显，这突显了我们框架的高效性。

5.4 消融研究

提示设计
表 4 显示了额外的指令如何增强目标计数，尤其是对于那些具有歧义或数据集特定标注规则的类别。最初，基于 DIOR 数据集训练的 Faster-RCNN 和 LVLM 计数器在 NWPU-VHR-10 的车辆精确度上表现不佳。明确的标注规则在指令中显著提升了 Qwen2.5-VL 和 GPT-4o 的车辆精确度，并且在 DIOR 上分别将 mF1 提高了 3% 和 8%。与文献 [88] 的发现相反，这些结果表明，具备强大基础模型和精确指令驱动的提示，确实能够使 LVLMs 匹配甚至超越封闭集模型的性能。

模型泛化和扩展性
为了评估 InstructSAM 的泛化能力和扩展性，我们在表 5 中对 LVLM 计数器、掩码提议器和 CLIP 模型进行了消融实验，任务为开放词汇表检测（OVD），数据集为 NWPU-VHR-10。InstructSAM 从经过遥感数据微调的 CLIP 模型 [42, 73] 中受益匪浅，其性能优于通用 CLIP [13]，从而获得了更高的 Box F1 分数。随着模型组件的增大，性能也得到了提升，这证明了该框架的可扩展性。值得注意的是，即使使用较小的 SAM2-S 和 SkyCLIP-B，InstructSAM 与 Qwen2.5-VL 结合（40.6 Box F1）的性能也优于直接使用 Qwen2.5-VL 进行检测（36.4 Box F1），这进一步证明了我们方法的有效性。

计数约束的掩码标签匹配
使用固定阈值来过滤 CLIP 预测 [10] 存在固有的局限性。图 6 显示了其性能对阈值高度敏感，这与文献 [35] 中的发现一致。每个类别都需要不同的最优值，使得单个阈值在跨类别时无效。InstructSAM 的计数约束匹配通过根据预测计数动态调整分配，消除了这种依赖，从而在多类别和开放世界场景中取得了更好的结果。

5.5 错误分析

开放词汇表检测任务的错误分析
错误分析揭示了不同方法之间的错误模式差异（见图 7）。OWLv2 主要遭受分类错误的困扰，而 Qwen2.5-VL 虽然在分类上有所改进，但仍然存在漏检的问题。InstructSAM-GPT4o 从 SAM² 的定位能力中受益，尽管由于 GeoRSCLIP 的场景级训练优先考虑更广泛的上下文而非单个目标，背景混淆的问题仍然存在。

分类错误（Cls）：OWLv2 在区分遥感目标类别时表现不佳，尤其是在处理复杂背景或相似外观的目标时。例如，它可能将“桥梁”误分类为“道路”，或者将“运动场地”误分类为“空地”。
定位错误（Loc）：Qwen2.5-VL 虽然在分类上有所改进，但在精确定位目标时仍存在挑战。例如，它可能无法准确识别目标的边界框，导致定位不准确。
背景混淆（Bkg）：InstructSAM-GPT4o 由于 GeoRSCLIP 的训练方式，更倾向于关注整个场景的上下文，而不是单个目标。这导致在处理复杂背景时，模型可能会将背景误识别为目标，或者将目标与背景混淆。
漏检（Miss）：尽管 InstructSAM-GPT4o 在定位和分类方面表现出色，但由于其依赖于全局上下文，对于一些小目标或被遮挡的目标，仍然存在漏检的情况。