论文阅读（二):Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by HOI Recognition

21级的乐未央

已于 2025-03-23 10:36:50 修改

阅读量633

点赞数 22

CC 4.0 BY-SA版权

分类专栏：论文笔记文章标签：论文阅读计算机视觉

于 2025-03-09 17:37:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73426012/article/details/146134796

论文笔记专栏收录该内容

8 篇文章

订阅专栏

论文来源：CVPR（2024）

1.研究背景

现有注意力预测模型主要关注显著物体或人类，但复杂的交互导向注意力（如动作相关的身体部位、接触点或场景上下文）尚未被充分研究。这种注意力对人机交互和 AI 的可解释性至关重要，但由于交互的多样性和数据稀缺性，需要零样本学习能力。

2.总体框架

2.1 整体流程

经验知识激活（Empirical Knowledge）：利用 CLIP 模型的多模态知识，通过文本提示引导模型关注交互相关的视觉特征。

场景自适应建模（Cognitive Goal Modeling）：通过适配器模块（PA/VA）将通用知识与具体场景结合，生成人类、物体、交互的专属知识原型。

渐进式理解（Progressive Understanding）：先识别个体（人和物体），再深入分析它们的交互关系，最终输出注意力图。

2.2 Interaction-oriented Prompt Block

作用：告诉模型 “要关注什么”。

输入：交互标签（如 “人在修理电脑”）、人和物体的位置信息。

输出：文本特征（T_H, T_O, T_I）和视觉特征（V）。

类比：就像给模型一个任务清单，明确 “现在要看的是人和电脑的交互”。

2.3 Positional Adapter

作用：给文本特征加入空间信息（如人和物体的位置）。

公式：将文本特征与位置的傅里叶编码拼接后，通过 MLP 生成知识原型（K_H, K_O, K_I）。

类比：告诉模型 “人在画面的左上角，物体在中间”，帮助定位关键区域。

2.4 Visual Adapter

作用：精炼 CLIP 提取的视觉特征，增强交互相关的细节。

结构：两个 Transformer 层，类似 “特征提纯器”。

输出：精炼后的视觉特征 V'。

2.5. Human-Object Cognitive Block

作用：先分别关注人和物体，再整合它们的信息。

机制：自注意力机制 + 门控（Gate），只保留与人和物体相关的特征。

输出：整合后的特征 V_HO。

2.6 Interaction Cognitive Block

作用：分析人和物体如何交互（如 “修理” 动作的关键点）。

机制：交叉注意力（Cross Attn）将交互知识原型（K_I）与 V_HO 结合，再通过自注意力进一步优化。

输出：最终的交互特征 V_HOI'。

2.7 Interaction-oriented Attention Decoder

作用：将抽象特征转化为可视化的注意力热图。

过程：上采样、卷积降维，生成与原图尺寸一致的注意力图 m_IA。

3.主要创新点

3.1 提出零样本交互导向注意力预测任务（ZeroIA）

首次定义任务：首次将注意力预测从物体 / 人类层级提升到交互层级，要求模型预测未见过的交互类别（如 “人修理电脑”）的关键视觉线索。

认知挑战性：交互涉及动作、接触点、场景上下文等复杂语义，传统模型（如 CLIP）直接生成的相似性图无法有效捕捉这些细粒度特征（如图 5、6 所示）。

应用价值：为自动驾驶（预测行人交互意图）、人机协作（理解用户操作目标）等场景提供基础技术支持。

3.2 构建首个交互中心的注视点数据集（IG）

规模与多样性：包含 740 个交互类别、530,000 个注视点，覆盖 HICO-det 和 VCOCO 场景，远超现有数据集（如 SALICON、POET）的交互覆盖范围（表 1）。

跨领域桥梁：数据源于 HOI 基准数据集，天然支持注意力预测与 HOI 识别的联合研究，为双向优化提供可能。

标注可靠性：32 名人类观察者在交互认知过程中记录注视点，确保标注反映真实认知逻辑（图 2）。

3.3 设计交互注意力模型（IA）

1.CLIP 知识激活与场景适配

提示工程：通过交互导向提示（如 “人 [动作][物体]”）激活 CLIP 的多模态知识，避免直接依赖 CLIP 的固定特征（如名词偏见）。

适配器模块：VA和PA（框架部分已介绍）

2.渐进式推理架构：HOCB和ICB（框架部分已介绍）

3.零样本泛化能力

在 ZeroIA 设置下，IA 的 CC 指标（相关性系数）比次优模型（MLNet）提升 52.8%，且显著优于 CLIP 直接生成的相似性图（表 2）。

3.4 建立注意力与 HOI 识别的双向优化框架

1.注意力监督 HOI 模型

真实数据增强：用 IG 中有限的人类注视点（4,475 样本）监督 HOI 模型（如 MUREN），提升其 mAP 达 0.6%~1.3%。

伪标签扩展：通过 IA 生成的伪标签（VCOCO 和 HICO-det 训练集）进一步优化，使 MUREN 在 HICO-det 的 Rare 子集上提升 6.0%。

2.可解释性提升

可视化显示，对齐注意力后的 HOI 模型（如 MUREN）的注意力图更聚焦交互区域（如手部与物体接触点），减少错误预测。

4.实验

4.1 计算要求

4*RTX3090

4.2 实验结果

5.对初学者的启示

以问题为导向：从实际需求（如零样本泛化）出发设计模型。

数据与模型并重：高质量数据是突破性能瓶颈的关键。

灵活利用预训练：通过提示工程和适配器高效迁移知识。

跨任务协同创新：探索不同任务间的双向优化潜力。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。