论文阅读(二):Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by HOI Recognition

 论文来源:CVPR(2024)

1.研究背景

现有注意力预测模型主要关注显著物体或人类,但复杂的交互导向注意力(如动作相关的身体部位、接触点或场景上下文)尚未被充分研究。这种注意力对人机交互和 AI 的可解释性至关重要,但由于交互的多样性和数据稀缺性,需要零样本学习能力。

2.总体框架

2.1 整体流程

经验知识激活(Empirical Knowledge):利用 CLIP 模型的多模态知识,通过文本提示引导模型关注交互相关的视觉特征。

场景自适应建模(Cognitive Goal Modeling):通过适配器模块(PA/VA)将通用知识与具体场景结合,生成人类、物体、交互的专属知识原型。

渐进式理解(Progressive Understanding):先识别个体(人和物体),再深入分析它们的交互关系,最终输出注意力图。

2.2 Interaction-oriented Prompt Block

作用:告诉模型 “要关注什么”。

输入:交互标签(如 “人在修理电脑”)、人和物体的位置信息。

输出:文本特征(T_H, T_O, T_I)和视觉特征(V)。

类比:就像给模型一个任务清单,明确 “现在要看的是人和电脑的交互”。

2.3 Positional Adapter

作用:给文本特征加入空间信息(如人和物体的位置)。

公式:将文本特征与位置的傅里叶编码拼接后,通过 MLP 生成知识原型(K_H, K_O, K_I)。

类比:告诉模型 “人在画面的左上角,物体在中间”,帮助定位关键区域。

2.4 Visual Adapter

作用:精炼 CLIP 提取的视觉特征,增强交互相关的细节。

结构:两个 Transformer 层,类似 “特征提纯器”。

输出:精炼后的视觉特征 V'。

2.5. Human-Object Cognitive Block

作用:先分别关注人和物体,再整合它们的信息。

机制:自注意力机制 + 门控(Gate),只保留与人和物体相关的特征。

输出:整合后的特征 V_HO。

2.6 Interaction Cognitive Block

作用:分析人和物体如何交互(如 “修理” 动作的关键点)。

机制:交叉注意力(Cross Attn)将交互知识原型(K_I)与 V_HO 结合,再通过自注意力进一步优化。

输出:最终的交互特征 V_HOI'。

2.7 Interaction-oriented Attention Decoder

作用:将抽象特征转化为可视化的注意力热图。

过程:上采样、卷积降维,生成与原图尺寸一致的注意力图 m_IA。

3.主要创新点

3.1 提出零样本交互导向注意力预测任务(ZeroIA)

首次定义任务:首次将注意力预测从物体 / 人类层级提升到交互层级,要求模型预测未见过的交互类别(如 “人修理电脑”)的关键视觉线索。

认知挑战性:交互涉及动作、接触点、场景上下文等复杂语义,传统模型(如 CLIP)直接生成的相似性图无法有效捕捉这些细粒度特征(如图 5、6 所示)。

应用价值:为自动驾驶(预测行人交互意图)、人机协作(理解用户操作目标)等场景提供基础技术支持。

3.2 构建首个交互中心的注视点数据集(IG)

规模与多样性:包含 740 个交互类别、530,000 个注视点,覆盖 HICO-det 和 VCOCO 场景,远超现有数据集(如 SALICON、POET)的交互覆盖范围(表 1)。

跨领域桥梁:数据源于 HOI 基准数据集,天然支持注意力预测与 HOI 识别的联合研究,为双向优化提供可能。

标注可靠性:32 名人类观察者在交互认知过程中记录注视点,确保标注反映真实认知逻辑(图 2)。

3.3 设计交互注意力模型(IA)

1.CLIP 知识激活与场景适配

提示工程:通过交互导向提示(如 “人 [动作][物体]”)激活 CLIP 的多模态知识,避免直接依赖 CLIP 的固定特征(如名词偏见)。

适配器模块:VA和PA(框架部分已介绍)

2.渐进式推理架构HOCB和ICB(框架部分已介绍)

3.零样本泛化能力

在 ZeroIA 设置下,IA 的 CC 指标(相关性系数)比次优模型(MLNet)提升 52.8%,且显著优于 CLIP 直接生成的相似性图(表 2)。

3.4 建立注意力与 HOI 识别的双向优化框架

1.注意力监督 HOI 模型

真实数据增强:用 IG 中有限的人类注视点(4,475 样本)监督 HOI 模型(如 MUREN),提升其 mAP 达 0.6%~1.3%。

伪标签扩展:通过 IA 生成的伪标签(VCOCO 和 HICO-det 训练集)进一步优化,使 MUREN 在 HICO-det 的 Rare 子集上提升 6.0%。

2.可解释性提升

可视化显示,对齐注意力后的 HOI 模型(如 MUREN)的注意力图更聚焦交互区域(如手部与物体接触点),减少错误预测。

4.实验

4.1 计算要求

4*RTX3090

4.2 实验结果

5.对初学者的启示

以问题为导向:从实际需求(如零样本泛化)出发设计模型。

数据与模型并重:高质量数据是突破性能瓶颈的关键。

灵活利用预训练:通过提示工程和适配器高效迁移知识。

跨任务协同创新:探索不同任务间的双向优化潜力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值