目录
一、论文结构解析
论文提出首个分层粒度比较网络解决开放词汇人机交互(OV-HOI)检测的两大核心问题:
- 问题定义(Sec 1)
- 特征粒度缺失:CLIP深层特征丢失局部细节(图1a)
- 语义相似混淆:CLIP对相似类别存在分类偏差(图1b)
- 方法创新(Sec 3)
- 粒度感知对齐模块(GSA):多粒度特征融合
- 层次化分组比较模块(HGC):LLM驱动的语义边界优化
- 实验验证(Sec 4)
- 在SWIG-HOI和HICO-DET实现SOTA
- 消融实验验证模块有效性(表3-6)
- 应用拓展(Sec 5)
- 智能监控、人机协作等场景
二、核心创新点
1. 粒度感知对齐模块(GSA)
问题:CLIP深层特征丢失局部细节(如手臂姿态)
解决方案:
python
class GranularitySensing(nn.Module):
def __init__(self, clip_encoder):
self.blocks = partition_encoder(clip_encoder) # 分层块划分
self.gaussian_weights = nn.Parameter(torch.randn(block_num)) # 可训练高斯权重
def forward(self, x):
block_features = []
for block in self.blocks:
# 块内特征加权融合
intra_feat = sum([α_l * layer(x) for layer in block])
block_features.append(intra_feat)
return sum([α_b * feat for α_b, feat in zip(self.gaussian_weights, block_features)])
创新原理:
- 分层块划分:将CLIP视觉编码器分为3个块(6-8层、9-11层、12层)
- 距离感知加权:使用可训练高斯权重(公式1)
αls=exp(−2σ2(d−l)2) - 视觉提示调优:添加可学习token保持预训练对齐