数据标准化和数据归一化
数据标准化和数据归一化都是数据预处理的常用方法,它们的目的是将数据转换为更适合模型处理的格式。
数据标准化(Standardization)是将数据转换为均值为0,方差为1的数据,也就是将数据按比例缩放,使得其分布具有标准正态分布。标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。均值和标准差都是在样本集上定义的,而不是在单个样本上定义的。标准化是针对某个属性的,需要用到所有样本在该属性上的值。
数据归一化(Normalization)是将数据转换为满足0≤x≤1的数据,也就是将数据缩放到区间。归一化的目的是将数据缩放到同一尺度,以便更好地比较不同特征间的差异。
总的来说,数据标准化更多的是针对正态分布的数据,它的目的是使得不同特征的数据有相似的分布;数据归一化则不一定需要正态分布,它的目的是将数据缩放到同一尺度,以便更好地比较不同特征间的差异。