数据预处理有四个任务,数据清洗、数据集成、数据 变换和数据规约。

一、数据清洗

1.缺失值处理
处理缺失值分为三类:删除记录、数据补差和不处理。
数据补插方法:
1. 补插均值/中位数/众数
2. 使用固定值
3. 最近邻补插
4. 回归方法
5. 插值法
插值法介绍:
(1)拉格朗日插值法
(2)牛顿插值法 (需要另写,具有承袭性和易于变动节点的特点)
(3)Hermite插值
(4)分段插值
(5)样条插值
2.异常值处理
(1)删除有异常值的记录
(2)视为缺失值
(3)平均值修正
(4)不处理
要分析异常值的原因,再决定取舍。

二、数据集成

将多个数据源放在一个统一的数据仓库中。
1.实体识别
同名异义
异名同义
单位不统一
2.冗余属性识别
同一属性多次出现
同一属性命名不一致

三、数据变换

对数据进行规范化处理
1.简单函数变换
原始数据进行数学函数变换,平方、开方、取对数、差分运算。用来将不具有正太分布的数据变换成具有正太性的数据。
时间序列分析中,对数变换或者差分运算可以将非平稳序列转换为平稳序列。
2.规范化
消除指标间量纲影响
(1)最小-最大规范化
(2)零-均值规范化
(3)小数定标规范化
3.连续属性离散化
将连续属性变为分类属性,即连续属性离散化。数据离散化本质上通过断点集合将连续的属性空间划分为若干区,最后用不同的符号或者整数值代表落在每个子区间中的数据。离散化涉及两个子任务:确定分类以及如何将连续属性值映射到这些分类值。
(1)等宽法
(2)等频法
(3)基于聚类分析的方法
4.属性构造
利用已有的属性构造新的属性,并加到现有的属性中。
5.小波变换
非平稳序列的分析手段。
基于小波变换的特征提取方法:
(1)基于小波变换的多尺度空间能量分布特征提取法
(2)基于小波变换的多尺度空间的模极大特征值提取法
(3)基于小波变换的特征提取方法
(4)基于适应性小波神经网络的特征提取方法

四、数据规约

降低无效,错误数据对建模的影响,提高建模的准确性。

少量且代表性的数据将大幅缩减数据挖掘所需时间。

降低存储数据成本。

1.属性规约

(1)合并属性

(2)逐步向前选择

(3)逐步向后删除

(4)决策树归纳

(5)主成分分析

数据预处理python 数据预处理方法_特征提取


数据预处理python 数据预处理方法_小波变换_02


2.数值规约

通过选择替代的、较小的数据来减少数据量,包含有参数方法和无参数方法两类;有参数方法使用模型评估数据,不需要存放真实数据,只需要存放参数,例如回归、对数线性模型。无参数需要数据,例如直方图、聚类、抽样。

数据预处理python 数据预处理方法_数据_03


数据预处理python 数据预处理方法_特征提取_04