数据标准化是数据预处理的重要步骤。

sklearn.preprocessing下包含 StandardScaler, MinMaxScaler, RobustScaler三种数据标准化方法。本文结合sklearn文档,对各个标准化方法的应用场景以及优缺点加以总结概括。

首先,不同类型的机器学习模型对scaling的依赖如下:

Tree-based models doesn’t depend on scaling    vs     Non-tree-based models hugely depend on scaling

一、数据标准化/归一化的必要性

1.1  提升模型精度

许多机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差。如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法中占据主导位置,从而影响学习器对其他特征的学习。

例如,在KNN中,我们需要计算待分类点与所有实例点的距离。假设每个实例点(instance)由n个features构成。如果我们选用的距离度量为欧式距离,如果数据预先没有经过归一化,那么那些绝对值大的features在欧式距离计算时会起决定性作用。

从经验上说,归一化是让不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。

1.2 提升收敛速度

对于线性模型来说,数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。

 

Java指标进行归一化处理 standardscaler做归一化处理_Java指标进行归一化处理

Java指标进行归一化处理 standardscaler做归一化处理_Java指标进行归一化处理_02

上述两个图,前者是没有经过归一化的,在梯度下降的过程中,走的路径更加的曲折,而第二个图明显路径更加平缓,收敛速度更快。

对于神经网络模型,避免饱和是一个需要考虑的因素,通常参数的选择决定于input数据的大小范围。

二、标准化/归一化方法

2.1 StandardScaler(标准差标准化)

标准化数据通过减去均值然后除以标准差,经过处理后数据符合标准正态分布,即均值为0,标准差为1。转换函数为:

x = (x-mean)/std

适用性与优缺点

(1) 适用于数据的分布本身服从正态分布的情况

(2) 基本可用于有outlier的情况,但是,在计算方差和均值的时候outliers仍然会影响计算。

2.2 MinMaxScaler(极差标准化/归一化)

将特征缩放到给定的最小值和最大值之间,也可以将每个特征的最大绝对值转换至单位大小。这种方法是对原始数据的线性变换,将数据归一到[0,1]中间。转换函数为:

x = (x-min)/(max-min)

适用性与优缺点:

(1) 当有新数据加入时,可能导致max和min的变化,需要重新定义

(2) 对于outlier非常敏感,只适用于数据在一个范围内分布的情况

2.3 RobustScaler(稳健标准化)

当数据包含许多异常值是,使用均值和方差缩放可能并不是一个很好的选择。此时可以使用 robust_scale 以及 RobustScaler 对数据的中心和范围进行更加鲁棒性的估计。

RobustScaler removes the median(中位数) and scales the data according to the quantile range(四分位距离,即排除了outliers)

三、[0, 1] 还是 [-1, 1] ?

假设我们有一个只有一个hidden layer的多层感知机(MLP)的分类问题。每个hidden unit表示一个超平面,每个超平面是一个分类边界。参数w(weight)决定超平面的方向,参数b(bias)决定超平面离原点的距离。如果b是一些小的随机参数(事实上,b确实被初始化为很小的随机参数),那么所有的超平面都几乎穿过原点。所以,如果data没有中心化在原点周围,那么这个超平面可能没有穿过这些data,也就是说,这些data都在超平面的一侧。这样的话,局部极小点(local minima)很有可能出现。 所以,在这种情况下,标准化到[-1, 1]比[0, 1]更好。

1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,StandardScaler表现更好。

2、在不涉及距离度量、协方差计算、数据不符合正态分布的时候,可以使用MinMaxScaler。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

使用MinMaxScaler,其协方差产生了倍数值的缩放,因此这种方式无法消除量纲对方差、协方差的影响,对PCA分析影响巨大;同时,由于量纲的存在,使用不同的量纲、距离的计算结果会不同。而在StandardScaler中,新的数据由于对方差进行了归一化,每个维度的量纲其实已经等价了,每个维度都服从均值为0、方差1的正态分布,在计算距离的时候,每个维度都是去量纲化的,避免了不同量纲的选取对距离计算产生的巨大影响。