知识蒸馏中的监督信号

什么是监督信号? 为什么要有监督信号?

  • 模型本身无法凭空学习,必须依赖监督信号来定义“什么是正确的预测”。

  • 例如,在图像分类中,如果没有标签(如“猫”或“狗”),模型就无法知道自己的预测是否正确。

监督信号的分类:硬标签&软标签&Logits(为归一化的分数)

硬标签

  • 定义:传统的监督学习标签,通常是 one-hot 编码 的类别标签(如 ),表示样本的真实类别。[0, 0, 1, 0]

  • 作用:直接强制学生模型学习正确的分类结果。

  • 局限性:只提供离散的类别信息,缺乏类别间的相似性、不确定性等细粒度知识。

软标签

  • 定义:教师模型对输入样本预测的 概率分布(即softmax输出,如 )。[0.1, 0.2, 0.6, 0.1]

  • 特点

    • 包含类别间的相对关系(例如“猫和狗的相似度高于猫和汽车”)。

    • 通过高温参数(Temperature Scaling)软化分布,使概率更平滑。

  • 作用:让学生模型模仿教师模型的“推理风格”,而不仅仅是最终分类结果。

  • 损失函数:通常使用 KL散度(Kullback-Leibler Divergence) 衡量学生与教师软标签的差异。

Logits(为归一化的分数)

  • 定义:教师模型在softmax之前的原始输出(未归一化的分数),例如 。[3.2, -1.0, 5.0, 0.5]

  • 特点

    • 比软标签保留更多信息(softmax会压缩数值差异)。

    • 反映教师模型对各类别的“原始置信度”。

  • 作用:直接对齐学生和教师的logits,可以更精确地传递教师模型的决策边界知识。

  • 损失函数:通常使用 均方误差(MSE)表 或余弦相似度。 

不同标签的多样化组合

平衡软标签和硬标签的损失权重(如:α * KL_loss + (1-α) * CE_loss),动态调整两者的贡献。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值