详解归一化、标准化、正则化以及batch normalization

最新推荐文章于 2025-04-25 12:01:25 发布

桂花味的六神

最新推荐文章于 2025-04-25 12:01:25 发布

阅读量2.6k

点赞数 37

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：人工智能机器学习神经网络

本文链接：https://blog.csdn.net/weixin_43340697/article/details/140092382

文章目录

归一化、标准化、正则化、以及深度学习种经常看到的Batch Normalization分别是什么？用在哪？怎么用，以及各自的原理分别是什么？本文针对这些问题，进行对比分析，整体解析。

what(是什么)

归一化，是对数据进行归一处理，处理的结果，从数据上看，会使得数据全部落在[0,1]的范围；从应用角度看，能够消除量纲的影响，也就是说，归一化在不同的特征之间进行，但可能涉及到一些反归一化的操作。
标准化，主要改变数据的分布，处理结果，从数据上看，会使得数据服从标准正态分布；从应用的角度看，这种标准的正态分布能够加速模型训练，主要用在同一特征的特征数据上。
正则化，是在机器学习中的损失函数中添加惩罚项，从数据上看，这种惩罚项会减小模型权重，通过减小权重，在应用中，能够降低有效防止过拟合。
而深度学习中常说的Batch Normalization层则是数据标准化的一个更高级的具体实现。具体地，在标准化的基础上，对数据进一步的进行一个缩放和拉伸，以达到学习数据真实分布的目的。从数据上看，经过Batch Normalization层的后的数据，会呈现正态分布；从应用角度，该分布可以有效加速模型模型、防止梯度消失、防止过拟合的作用。

where（用在哪）

归一化，主要用在存在多个特征，且多个特征之间量纲不一致的情况下，需要对数据进行归一化，以消除量纲带来的影响，尤其，当特征的数值范围变化较大时，或者算法对输入数据的数值范围敏感时，可以考虑归一化。
标准化，主要在模型训练阶段，尤其当特征的分布偏差大或者算法对数据的分布敏感时，可以考虑标准化。
正则化，主要用在机器学习的损失函数上。通过在损失函数上施加惩罚项，来降低模型复杂度，特别是在数据量不足或者特征数目较多时。

How（如何用&&原理）

归一化

实现方式

最大最小归一化
将数据缩放到一个固定的范围，通常是[0, 1]或者[-1, 1]。

## 在 python 中实现最大最小归一化的操作

import numpy as np

def min_max_normalize(data):
    min_val = np.min(data)
    max_val = np.max(data)
    normalized_data = (data - min_val) / (max_val - min_val)
    return normalized_data