【深度学习】梳理范数与正则化（二）_范数正则化怎么理解-CSDN博客

本文详细梳理了正则化在深度学习中的作用，防止过拟合，提升模型泛化能力。介绍了L1和L2正则化，以及与向量和矩阵范数（如1-范数、2-范数、∞-范数等）的关系。通过范数的概念，解释了L1正则化产生稀疏解的原因，以及L2正则化的稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- 正则化
- 范数
- L1正则和L2正则
- 总结

今天要梳理的知识是范数与正则化。文章完全根据个人理解写，如有不对，欢迎指出！！

正则化

正则化是一种对学习算法的约束，主要是为了防止过拟合（下一次会梳理这个知识点），从而增强模型的泛化能力。泛化能力 是指模型对未知数据的预测能力，是一种用于评估机器学习算法的能力的指标。泛化误差可以反映模型的泛化能力，误差越小，模型越稳定。泛化误差（generalization error） 又是指训练后的模型在测试集上的误差，也叫测试误差（test error）。这一下子牵扯出来一堆专业名称，还真不好理解…

继续说回正则化，正则化的作用主要是约束，控制模型的拟合程度。对于线性模型来说，数学形式是这样：
$y^{'} = w x + b$
对于理论而言，我们当然希望能找到非常合适的参数w和b，使得目标值 $y^{'}$ 与真实值 $y$ 能完全相同，但是如果这种情况出现在实际中，则属于过拟合现象，我们必须要约束这个模型，使其结果与真实值保持一定的误差，这就是正则化需要做的事：
$y'=(wx+b)+\alpha \Omega(\theta)$