[2025CVPR]SGC-Net：开放词汇人机交互检测的分层粒度比较网络解析

原创

于 2025-07-08 23:36:03 发布 · 819 阅读

·

12

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人机交互 #python #机器学习 #生成对抗网络 #人工智能 #神经网络 #pcm

代码星辉·七月创作之星挑战赛 10w+人浏览 298人参与

目录

一、论文结构解析

二、核心创新点

1. 粒度感知对齐模块（GSA）

2. 层次化分组比较模块（HGC)

三、代码复现关键步骤

1. 环境配置

2. GSA模块实现

3. HGC模块调用LLM

四、实验结果分析

1. 性能对比

2. 消融实验

3. 特征可视化

五、应用场景展望

1. 智能监控系统

2. 人机协作机器人

3. 增强现实交互

六、总结与资源

一、论文结构解析

论文提出首个分层粒度比较网络解决开放词汇人机交互（OV-HOI）检测的两大核心问题：

问题定义（Sec 1）
- 特征粒度缺失：CLIP深层特征丢失局部细节（图1a）
- 语义相似混淆：CLIP对相似类别存在分类偏差（图1b）
方法创新（Sec 3）
- 粒度感知对齐模块（GSA）：多粒度特征融合
- 层次化分组比较模块（HGC）：LLM驱动的语义边界优化
实验验证（Sec 4）
- 在SWIG-HOI和HICO-DET实现SOTA
- 消融实验验证模块有效性（表3-6）
应用拓展（Sec 5）
- 智能监控、人机协作等场景

二、核心创新点

1. 粒度感知对齐模块（GSA）

问题：CLIP深层特征丢失局部细节（如手臂姿态）
解决方案：

python

class GranularitySensing(nn.Module):
    def __init__(self, clip_encoder):
        self.blocks = partition_encoder(clip_encoder)  # 分层块划分
        self.gaussian_weights = nn.Parameter(torch.randn(block_num))  # 可训练高斯权重
        
    def forward(self, x):
        block_features = []
        for block in self.blocks:
            # 块内特征加权融合
            intra_feat = sum([α_l * layer(x) for layer in block]) 
            block_features.append(intra_feat)
        return sum([α_b * feat for α_b, feat in zip(self.gaussian_weights, block_features)])

创新原理：

分层块划分：将CLIP视觉编码器分为3个块（6-8层、9-11层、12层）
距离感知加权：使用可训练高斯权重（公式1）
αls=exp(−2σ2(d−l)2)
视觉提示调优：添加可学习token保持预训练对齐

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

清风AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。