什么是监督信号? 为什么要有监督信号?
-
模型本身无法凭空学习,必须依赖监督信号来定义“什么是正确的预测”。
-
例如,在图像分类中,如果没有标签(如“猫”或“狗”),模型就无法知道自己的预测是否正确。
监督信号的分类:硬标签&软标签&Logits(为归一化的分数)
硬标签
-
定义:传统的监督学习标签,通常是 one-hot 编码 的类别标签(如 ),表示样本的真实类别。
[0, 0, 1, 0]
-
作用:直接强制学生模型学习正确的分类结果。
-
局限性:只提供离散的类别信息,缺乏类别间的相似性、不确定性等细粒度知识。
软标签
-
定义:教师模型对输入样本预测的 概率分布(即softmax输出,如 )。
[0.1, 0.2, 0.6, 0.1]
-
特点:
-
包含类别间的相对关系(例如“猫和狗的相似度高于猫和汽车”)。
-
通过高温参数(Temperature Scaling)软化分布,使概率更平滑。
-
-
作用:让学生模型模仿教师模型的“推理风格”,而不仅仅是最终分类结果。
-
损失函数:通常使用 KL散度(Kullback-Leibler Divergence) 衡量学生与教师软标签的差异。
Logits(为归一化的分数)
-
定义:教师模型在softmax之前的原始输出(未归一化的分数),例如 。
[3.2, -1.0, 5.0, 0.5]
-
特点:
-
比软标签保留更多信息(softmax会压缩数值差异)。
-
反映教师模型对各类别的“原始置信度”。
-
-
作用:直接对齐学生和教师的logits,可以更精确地传递教师模型的决策边界知识。
-
损失函数:通常使用 均方误差(MSE)表 或余弦相似度。
不同标签的多样化组合
平衡软标签和硬标签的损失权重(如:α * KL_loss + (1-α) * CE_loss
),动态调整两者的贡献。