[2025CVPR]SGC-Net:开放词汇人机交互检测的分层粒度比较网络解析

代码星辉·七月创作之星挑战赛 10w+人浏览 298人参与

目录

一、论文结构解析

二、核心创新点

1. 粒度感知对齐模块(GSA)

2. 层次化分组比较模块(HGC)

三、代码复现关键步骤

1. 环境配置

2. GSA模块实现

3. HGC模块调用LLM

四、实验结果分析

1. 性能对比

2. 消融实验

3. 特征可视化

五、应用场景展望

1. 智能监控系统

2. 人机协作机器人

3. 增强现实交互

六、总结与资源


一、论文结构解析

论文提出首个分层粒度比较网络解决开放词汇人机交互(OV-HOI)检测的两大核心问题:

  1. 问题定义​(Sec 1)
    • 特征粒度缺失​:CLIP深层特征丢失局部细节(图1a)
    • 语义相似混淆​:CLIP对相似类别存在分类偏差(图1b)
  2. 方法创新​(Sec 3)
    • 粒度感知对齐模块(GSA)​​:多粒度特征融合
    • 层次化分组比较模块(HGC)​​:LLM驱动的语义边界优化
  3. 实验验证​(Sec 4)
    • 在SWIG-HOI和HICO-DET实现SOTA
    • 消融实验验证模块有效性(表3-6)
  4. 应用拓展​(Sec 5)
    • 智能监控、人机协作等场景

 


二、核心创新点

1. 粒度感知对齐模块(GSA)

问题​:CLIP深层特征丢失局部细节(如手臂姿态)
解决方案​:

python

class GranularitySensing(nn.Module):
    def __init__(self, clip_encoder):
        self.blocks = partition_encoder(clip_encoder)  # 分层块划分
        self.gaussian_weights = nn.Parameter(torch.randn(block_num))  # 可训练高斯权重
        
    def forward(self, x):
        block_features = []
        for block in self.blocks:
            # 块内特征加权融合
            intra_feat = sum([α_l * layer(x) for layer in block]) 
            block_features.append(intra_feat)
        return sum([α_b * feat for α_b, feat in zip(self.gaussian_weights, block_features)])

创新原理​:

  • 分层块划分​:将CLIP视觉编码器分为3个块(6-8层、9-11层、12层)
  • 距离感知加权​:使用可训练高斯权重(公式1)
    αls​=exp(−2σ2(d−l)2​)
  • 视觉提示调优​:添加可学习token保持预训练对齐
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清风AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值