论文来源:CVPR(2024)
1.研究背景
现有注意力预测模型主要关注显著物体或人类,但复杂的交互导向注意力(如动作相关的身体部位、接触点或场景上下文)尚未被充分研究。这种注意力对人机交互和 AI 的可解释性至关重要,但由于交互的多样性和数据稀缺性,需要零样本学习能力。
2.总体框架
2.1 整体流程
经验知识激活(Empirical Knowledge):利用 CLIP 模型的多模态知识,通过文本提示引导模型关注交互相关的视觉特征。
场景自适应建模(Cognitive Goal Modeling):通过适配器模块(PA/VA)将通用知识与具体场景结合,生成人类、物体、交互的专属知识原型。
渐进式理解(Progressive Understanding):先识别个体(人和物体),再深入分析它们的交互关系,最终输出注意力图。
2.2 Interaction-oriented Prompt Block
作用:告诉模型 “要关注什么”。
输入:交互标签(如 “人在修理电脑”)、人和物体的位置信息。
输出:文本特征(T_H, T_O, T_I)和视觉特征(V)。
类比:就像给模型一个任务清单,明确 “现在要看的是人和电脑的交互”。
2.3 Positional Adapter
作用:给文本特征加入空间信息(如人和物体的位置)。
公式:将文本特征与位置的傅里叶编码拼接后,通过 MLP 生成知识原型(K_H, K_O, K_I)。
类比:告诉模型 “人在画面的左上角,物体在中间”,帮助定位关键区域。
2.4 Visual Adapter
作用:精炼 CLIP 提取的视觉特征,增强交互相关的细节。
结构:两个 Transformer 层,类似 “特征提纯器”。
输出:精炼后的视觉特征 V'。
2.5. Human-Object Cognitive Block
作用:先分别关注人和物体,再整合它们的信息。
机制:自注意力机制 + 门控(Gate),只保留与人和物体相关的特征。
输出:整合后的特征 V_HO。
2.6 Interaction Cognitive Block
作用:分析人和物体如何交互(如 “修理” 动作的关键点)。
机制:交叉注意力(Cross Attn)将交互知识原型(K_I)与 V_HO 结合,再通过自注意力进一步优化。
输出:最终的交互特征 V_HOI'。
2.7 Interaction-oriented Attention Decoder
作用:将抽象特征转化为可视化的注意力热图。
过程:上采样、卷积降维,生成与原图尺寸一致的注意力图 m_IA。
3.主要创新点
3.1 提出零样本交互导向注意力预测任务(ZeroIA)
首次定义任务:首次将注意力预测从物体 / 人类层级提升到交互层级,要求模型预测未见过的交互类别(如 “人修理电脑”)的关键视觉线索。
认知挑战性:交互涉及动作、接触点、场景上下文等复杂语义,传统模型(如 CLIP)直接生成的相似性图无法有效捕捉这些细粒度特征(如图 5、6 所示)。
应用价值:为自动驾驶(预测行人交互意图)、人机协作(理解用户操作目标)等场景提供基础技术支持。
3.2 构建首个交互中心的注视点数据集(IG)
规模与多样性:包含 740 个交互类别、530,000 个注视点,覆盖 HICO-det 和 VCOCO 场景,远超现有数据集(如 SALICON、POET)的交互覆盖范围(表 1)。
跨领域桥梁:数据源于 HOI 基准数据集,天然支持注意力预测与 HOI 识别的联合研究,为双向优化提供可能。
标注可靠性:32 名人类观察者在交互认知过程中记录注视点,确保标注反映真实认知逻辑(图 2)。
3.3 设计交互注意力模型(IA)
1.CLIP 知识激活与场景适配
提示工程:通过交互导向提示(如 “人 [动作][物体]”)激活 CLIP 的多模态知识,避免直接依赖 CLIP 的固定特征(如名词偏见)。
适配器模块:VA和PA(框架部分已介绍)
2.渐进式推理架构:HOCB和ICB(框架部分已介绍)
3.零样本泛化能力
在 ZeroIA 设置下,IA 的 CC 指标(相关性系数)比次优模型(MLNet)提升 52.8%,且显著优于 CLIP 直接生成的相似性图(表 2)。
3.4 建立注意力与 HOI 识别的双向优化框架
1.注意力监督 HOI 模型
真实数据增强:用 IG 中有限的人类注视点(4,475 样本)监督 HOI 模型(如 MUREN),提升其 mAP 达 0.6%~1.3%。
伪标签扩展:通过 IA 生成的伪标签(VCOCO 和 HICO-det 训练集)进一步优化,使 MUREN 在 HICO-det 的 Rare 子集上提升 6.0%。
2.可解释性提升
可视化显示,对齐注意力后的 HOI 模型(如 MUREN)的注意力图更聚焦交互区域(如手部与物体接触点),减少错误预测。
4.实验
4.1 计算要求
4*RTX3090
4.2 实验结果
5.对初学者的启示
以问题为导向:从实际需求(如零样本泛化)出发设计模型。
数据与模型并重:高质量数据是突破性能瓶颈的关键。
灵活利用预训练:通过提示工程和适配器高效迁移知识。
跨任务协同创新:探索不同任务间的双向优化潜力。