数据标准化是在特征处理环节必不可少的重要步骤。
数据标准化是为了消除不同指标量纲的影响,方便指标之间的可比性,量纲差异会影响某些模型中距离计算的结果。
常见标准化方法主要有归一化、正态化。
数据归一化也即0-1标准化,又称最大值-最小值标准化,核心要义是将原始指标缩放到0~1之间的区间内。相当于对原变量做了一次线性变化。
其公式为 EX = (x- min)/(max - min)
另一种常用的标准化方法是z-score标准化,将原始指标标准化为均值为0,标准化为1的正态分布。
EX = (x - mean)/σ
R语言中的特征标准化:
library("caTools")
library("scales")
data(iris)
split = sample.split(iris$Species,SplitRatio = .8)
train_data = subset(iris,split == TRUE)
test_data = subset(iris,split == FALSE)
train_data[,-5] = apply(train_data[,-5],2,rescale,to = c(0,1))
test_data[,-5] = apply(test_data[,-5],2,rescale,to = c(0,1))
以上scales包中的rescale函数可以自动完成指标中0-1标准化的任务,事实上,它可以将原始指标线性变化到任何一个数字区间内。
我们可以来验证结果是否是可信的。
range(train_data[,1])
range(apply(train_data[,-5],2,rescale,to = c(0,1))[,1])
[1] 4.3 7.7
[1] 0 1
当然你也可以自己写一个叫简单的0-1标准化函数
scale1 = function(x){
(x - min(x))/(max(x) - min(x))
}
range(apply(train_data[,-5],2,scale1)[,1])
[1] 0 1
z-score标准化
z-score标准化可以通过scale函数快速实现。
train_data[,-5] = scale(train_data[,-5])
mean(train_data[,1]);sd(train_data[,1])
[1] 5.869167
[1] 0.8259241
mean(scale(train_data[,-5])[,1]);sd(scale(train_data[,-5])[,1])
[1] 0
[1] 1
#自定义一个z-score标准化函数
z_norm = function(x){
(x - mean(x))/sd(x)
}
mean(apply(train_data[,-5],2,z_norm)[,1]);sd(apply(train_data[,-5],2,z_norm)[,1])
[1] 0
[1] 1
Python中sk-learn库中有专门用于处理以上两种标准化的函数。
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import pandas as pdimport numpy as np
iris = load_iris()
data = iris['data']
iris_data = pd.DataFrame(
data = data,
columns = ['sepal_length','sepal_width','petal_length','petal_width']
)
iris_data["Species"] = iris[ 'target']
iris_data["Species"] = iris_data["Species"].map({0:"setosa",1:"versicolor",2:"virginica"})
x,y = iris_data.iloc[:,0:-1],iris_data.iloc[:,-1]
train_data,_data,train_target,test_target = train_test_split(x,y,test_size = 0.2,stratify = y)
Python中的0-1标准化
min_max_scaler = preprocessing.MinMaxScaler() #实例化0-1标准化方法
X_train_minmax = min_max_scaler.fit_transform(test_data.iloc[:,0:4].values)
X_test_minmax = min_max_scaler.transform(test_data.iloc[:,0:4].values)
X_train_minmax[:,0].max() - X_train_minmax[:,0].min()1.0
Python中的z-score标准化
训练集第一列的均值和方差如下
train_data.iloc[:,0].mean();train_data.iloc[:,0].std()
5.86166666666666
40.8416853174847874
sc_X = preprocessing.StandardScaler() #实例化z-score标准化方法
X_train = sc_X.fit_transform(train_data.iloc[:,0:4].values)
X_test = sc_X.transform(test_data.iloc[:,0:4].values)
标准化后第一列的均值和方差
X_train[:,0].mean();X_train[:,0].std()
-2.2907601741432396e-151.0
以上仅介绍了最常用的两种标准化特征的方法及其实现,标准化的方法还有很多,对于什么的模型需要使用标准化以及适用什么方法的标准化,需要视具体场景和数据量级差异而定,小编也在摸索中。
标准化一方面可以防止原始特征中量纲差异影响距离运算(比如欧氏距离的运算)。
另一方面标准化也可以在一定程度上提升算法求解的效率。
本文作者:杜雨