数据标准化代码python 数据标准化

转载

mob64ca14137e4f 2023-11-03 13:56:02

文章标签 数据标准化代码python 数据标准化方法标准差 文章分类 Python 后端开发

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。
也有一些人要将这种做法区分为“正规化”和“标准化”两种。其中，“正规化”表示将值的范围缩小到0和1之间；“标准化”则是将特征值转换为均值为0的一组数，其中每个数表示偏离均值的程度（即标准偏
差或绝对偏差）。
最典型的就是数据的归一化处理，即将数据统一映射到[0,1]区间上。

Min-Max标准化(Min-Max normalization)

也称离差标准化，是对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下：

x∗=x−xminxmax−xmin

其中，

x∗ 为 x 变换后的值，xmax 为样本数据的最大值， xmin 为样本数据的最小值。

这种方法有一个缺陷就是当有新数据加入时，可能导致

xmax 和 xmin 的变化，需要重新定义。

此外，也有将数据变换到-1到1之间的，函数如下：

x∗=2(x−xmin)−(xmax−xmin)xmax−xmin

Z-score 标准化(zero-mean normalization)

也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

x∗=x−uσ

其中

u为所有样本数据的均值，σ为所有样本数据的标准差。

经过 Z-score 标准化后，各变量将有约一半观察值的数值小于0，另一半观察值的数值大于0，变量的平均数为0，标准差为1。经标准化的数据都是没有单位的纯数量。它是当前用得最多的数据标准化方法。如果特征非常稀疏，并且有大量的0（现实应用中很多特征都具有这个特点），Z-score 标准化的过程几乎就是一个除0的过程，结果不可预料。

修正的Z-score 标准化(modified zero-mean normalization)

标准差标准化的问题：异常值的影响。比如说一家公司有100名员工，普通员工每小时赚10美元，而CEO一年能赚600万，那全公司的平均时薪：

数据标准化代码python 数据标准化_方法

结果是每小时38美元，看起来很美好，但其实并不真实。鉴于这个原因，标准分的计算公式会稍作变化。

修正的Z-score标准化：将标准分公式中的均值改为中位数，将标准差改为绝对偏差。

中位数指的是将所有数据进行排序，取中间的那个值。如果数据量是偶数，则取中间两个数值的均值。

绝对偏差的计算公式：

asd=∑mi=1|xi−xmedia|m

修正的Z-score标准化:

x∗=x−xmedianasd

其他0-1标准化

log函数变换

通过以10为底的log函数转换的方法同样可以实现归一下，具体方法如下：

x∗=log10(x)log10(xmax)

atan函数变换

反正切函数也可以实现数据的归一化：

x∗=atan(x)∗2π

使用这个方法需要注意的是如果想映射的区间为[0,1]，则数据都应该大于等于0，小于0的数据将被映射到[-1,0]区间上。

是否需要标准化？

需要进行标准化的情形：

需要通过物品特性来计算距离；
不同特性之间的尺度相差很大。

需要注意的是，有时候标准后反而会降低结果的正确性。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：iOS NSTimer 内存泄露 ns内存不足有影响吗

下一篇：python 流媒体服务 php流媒体服务器

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯