背景
一般而言,Normalization归一化是将特征转换为可比较尺度的过程。有许多方法可以对特征进行归一化
例如:最小-最大特征缩放
最小-最大特征缩放将值转换到[0,1]的范围内。这也被称为基于单位的归一化。可以使用以下方程进行计算:
该方程的顶部将每个值减去X_min;当X等于X_min时,分子变为0。当分子被分母除时,输出为0。
同样,当分子为X_max — X_min时,新的最大值出现。当这个值被X_max — X_min除时,它变为1。这就是范围如何被调整到0和1之间的。
例如:标准分数
在标准化过程中,每个值都被转换为它的标准分数,[-1,1]的范围内。标准分数也被称为z分数。这是通过从每个值中减去均值,然后除以标准差来实现的。
μ 代表数据的均值或平均数。
σ 代表数据的标准差,
即各数值与均值之间的平均离散程度。如果一个数据集的标准差较低,那么数值可能更接近均值。如果标准差较高,则可能意味着数值分布在一个较大的范围内。可以用以下公式来计算标准差。