【深度学习】介绍六大类损失函数（九）

最新推荐文章于 2025-03-31 09:12:49 发布

Florrie Zhu

最新推荐文章于 2025-03-31 09:12:49 发布

阅读量1.4w

点赞数 20

CC 4.0 BY-SA版权

分类专栏：深度学习之基础知识文章标签：深度学习损失函数 GAN loss pixel-wise loss Perceptual loss

本文链接：https://blog.csdn.net/Resume_f/article/details/105053631

本文深入解析深度学习中各类损失函数的原理与应用场景，涵盖Pixel-wise Loss、MSE、MAE、CE、Perceptual Loss、GAN Loss等，旨在帮助读者理解如何选择合适的损失函数以提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

写在最前面的话：本文主要整理深度学习中的损失函数，从原理到作用，详细了解损失函数。

损失函数

损失函数（loss function） 是用来评估模型的预测值f(x)与真实值y的不一致程度，它是一个非负值，常用符号 $L (f (x), y)$ 表示。损失函数在模型的性能中起关键作用，选择正确的损失函数能帮助模型在数据集中获得最优最快的收敛，起到指导模型学习的作用。它的值越小，说明模型的鲁棒性越好。损失函数是经验风险函数的核心部分，也是结构风险函数的重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示为：
$\theta^*=\argmin_\theta \frac1N\sum_{i=1}^NL(f(x_i;\theta), y_i)+\lambda\Phi(\theta)$
其中，加号前面的项为经验风险损失函数，L表示损失函数，加号后面的项为正则化项。

下面介绍在计算机视觉中一些常用的损失函数。

Pixel-wise Loss

pixel-wise：字面上的理解一样，一张图片是由一个个pixel（像素）组成的，这个是图像的基本单位，像素级别的。故，pixel-wise 损失函数是计算预测图像与目标图像的像素间的损失。属于像素间类型的损失函数，常见的有：MSE（L2损失），MAE（L1损失）和交叉熵等。

MSE 均方误差

均方误差（Mean Squared Error，MSE） 是指参数估计值与参数真值之差平方的期望值，MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度，通常用在回归问题中作为损失函数。
$MSE=\frac1N\sum_{i=1}^N(y_i-f(x_i))^2$
其中， i 表示第 i 个样本，N 表示样本总数。

MAE 平均绝对误差

平均绝对误差（Mean Absolute Error，MAE） 是绝对误差的平均值，平均绝对误差能更好地反映预测值误差的实际情况，通常用来作为回归算法的性能指标。
$MAE=\frac1N\sum_{i=1}^N|y_i-f(x_i)|$
其中， i 表示第 i 个样本，N 表示样本总数。

CE 交叉熵损失

交叉熵（Cross Entry，CE） 是用来评估当前训练得到的概率分布与真实分布的差异情况，减少交叉熵损失就是在提高模型的预测准确率，通常用作分类问题的损失函数。
$CE(p,q)=-\sum_{i=1}^Np(x_i)\log q(x_{(-i)})$
其中，p(x)是指真实分布的概率，q(x)是模型通过数据计算出来的概率估计。

这些损失函数都是对图像中每个像素向量的类预测情况进行评估，所以它们通常都应用在分类和回归问题中。

Perceputal Loss

Perceputal loss 中文名叫感知损失，被用在GAN网络中的。对于图像风格化、超分辨率重建等任务来说，早期使用的像素空间的L2 损失得到的图像细节模糊，视觉效果往往是不好的，它与人眼感知的图像质量并不匹配，因此就有学者提出使用Perceputal loss取代L2 loss，能获得细节丰富的结果。

感知损失是比较图像之间的高级感知和语义差异，它从预训练好的网络中提取前几层的输出指，从而获得图像的底层特征，然后通过简单的像素级损失来比较目标的特征张量和输出值的特征张量的区别。我们都知道，对于一个卷积神经网络CNN来说，浅层的网络是提取简单的特征（如边缘、颜色），而深层的卷积层才能提取更复杂的特征（如特定的形状，模式），因此在网络的前几层捕获的低层次特征都是差不多，这个发现也是支撑迁移学习的理论基础。感知损失的数学表达式为：
$L_j=\frac{||V_j(y)-V_j(f(x))||^2_2}{C_j*H_j*W_j}$
其中， $V_j(f(x))$ 表示预训练网络第j层在处理图像f(x)时的激活情况，其形状为 $C_j,H_j,W_j)$