一.数据预处理概述:

1.数据质量涉及的六个因素:

(1)准确性

(2)完整性

(3)一致性

(4)时效性

(5)可信性:反映有多少数据是用户信赖的

(6)可解释性:反映数据是否容易理解

2.数据预处理原因:

改进数据质量,有助于提高其后的挖掘过程的准确率和效率,是知识发现过程的重要步骤

3.数据预处理的主要步骤:

(1)数据清理:数据清理例程通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决纠正数据中的不一致性来清理数据

(2)数据集成:集成多个数据库、数据立方体或文件,将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库中

(3)数据归约:得到数据集的简化表示,小得多,但能够产生同样的分析结果;包括维归约和数值归约

(4)数据变换:规范化、数据离散化和概念分层等

二.数据清理:

1.缺失值:

(1)忽略元组:缺少类标号时这样做

(2)人工填写缺失值:费时,当数据集大、缺失很多值时行不通

(3)使用一个全局变量填充缺失值:将缺失的属性值用同一个常量如“Unknown”替换

(4)使用属性的中心度量(如均值或中位数)填充缺失值

(5)使用于给定元组属同一类的所有样本的属性均值或中位数

(6)使用最可能的值填充缺失值:使用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定

2.噪声数据:

噪声:被测量的变量的随机误差或方差;

数据光滑技术(去掉噪声):

(1)分箱: 通过考察数据的近邻(即周围的值)来光滑有序数据值,这些有序的值被分布到一些桶或箱中,局部光滑;

有用箱均值光滑、用箱中位数光滑、用箱边界光滑

(2)回归: 用一个函数拟合数据来光滑数据

(3)离散点分析:通过如聚类来检测离群点

3.数据清理过程:

偏差检测:根据唯一性规则、连续性规则和空值规则考察数据

商业工具进行偏差检测: 数据清洗工具、数据审计工具、数据迁移工具、ETL(提取/变换/装入)工具

三.数据集成:

1.实体识别问题:来自多个信息源的等价实体如何才能匹配

2.冗余和相关分析:

有些冗余可以用相关分析检测到,给定两个属性,这种分析可以再根据可用的数据,度量一个熟悉能在多大程度上蕴含另一个

(1)标称数据的卡方检验

(2)数值数据的相关系数:计算属性A和B的相关系数Pearson积矩系数

(3)数值数据的协方差

3.元组重复

4.数据值冲突的检测与处理

四.数据归约:

1.数值归约策略:

(1)维归约:减少所考虑的随机变量或属性的个数;

维归约方法有:小波变换、主成分分析、属性子集选择

(2)数量归约: 用替代的、较小的数据表示形式替换原数据,这些技术可以是参数的或非参数的
参数方法:使用模型估计数据,使得一般只需要存放模型参数,而不是实际数据,比如回归和对数-线性模型

非参数方法:直方图、聚类、抽样和数据立方体聚变

(3)数据压缩: 使用变换,以便的带原数据的归约或压缩表示;可分为无损的和有损的

2.小波变换:

(1)离散小波变换(DWT):

是一种线性信号处理技术,用于数据向量X时,将它变换成不同的数值小波系数向量 X’,两个向量具有相同的长度;

当这种技术用于数据归约时,每个元组看做一个n维数据向量,描述n个数据库属性在元组上的n个测量值

(2)傅里叶变换(DFT):一种涉及正弦和余弦的信号处理技术

(3)流行的小波变换有:Haar_2、Daubechies-4和Daubechies-6

(4)离散小波变换的一般过程使用:层次金字塔算法,在每次迭代时将数据减半,导致计算速度很快

3.主成分分析(或PCA,又称K-L方法):

从n个属性或维描述的远足或数据向量中搜索k个最能代表数据的n维正交向量,这样原数据投影到一个小得多的空间上,导致维归约;

通过创建一个替换的、较小的变量集“组合”属性的基本要素,原数据可以投影到该较小的集合中;

PCA通常能揭示先前未曾察觉的联系,并因此允许解释不寻常的结果;

PCA能更好处理稀疏数据,小波变换适合高维数据

4.属性子集选择:

通过删除不相关或冗余的属性或维减少数据量;

目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布,减少了出现在发现模式上的属性数目,使得模式更易于理解

通常使用压缩搜索空间的启发式算法:

(1)逐步向前选择

(2)逐步向后删除

(3)逐步向前选择和逐步向后删除的组合

(4)决策树的归纳

5.回归和对数线性模型:参数化数据归约

对数据建模,使之拟合到一条直线

对数线性模型

6.直方图:

单值桶;划分规则:等宽、等频;存放高频率的离群点,单值桶很有用

7.聚类:

将对象划分为群或簇,使得在一个簇中的对象互相相似。而与其他簇中的对象相异

簇的质量度量:(1)直径 (2)形心

8.抽样:

用数据的小得多的随机样本表示大型数据集;

常用的抽样方法:

(1)无放回简单随机抽样(SRSWOR)

(2)有放回简单随机抽样(SRSWR)

(3)簇抽样

(4)分层抽样

抽样进行数据归约的优点:

得到样本的花费正比例于样本集的大小,而不是数据集的大小;抽样最常用来估计聚集查询的回答

9.数据立方体聚集:

基本方体:在最低抽象层创建的立方体,应当对应于感兴趣的个体实体(即对应于分析有用的)

顶点立方:最高层抽象的立方体

五.数据变换与数据离散化:

1.数据变换策略包括以下几种:

(1)光滑:去掉数据中的噪声,包括分箱、回归和聚类

(2)属性构造(或特征构造):可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程

(3)聚集:对数据进行汇总或聚集,通常用来为多个抽象层的数据分析构造数据立方体

(4)规范化:把属性数据按比例缩放,使之落入一个特定的小区间

(5)离散化:数值属性的原始值用区间标签或概念标签替换

(6)由标称数据产生概念分层

2.规范化变换数据:

赋予所有属性相等的权重;对于设计神经网络的分类算法或基于距离度量的分类(如最近邻分类)和聚类,规范化特别有用

规范法方法:

(1)最小-最大规范化:保持原始数据值之间的联系

(2)z分数规范化

(3)小数定标规范化:通过移动属性A四维值的小数点位置进行规范化

3.通过分箱离散化:

一种基于指定的箱个数的自顶向下的分裂技术;不使用类信息,是一种非监督的离散方法

4.通过直方图离散化:

非监督离散化技术

5.通过聚类、决策树和相关分析离散化:

(1)聚类:

(2)决策树:使用自顶向下划分方法;使用类标号,是监督的方法

(3)相关分析: ChiMerge,采用自底向上的策略,递归找出最邻近的区间然后合并他们,形成较大的区间;监督的技术

6.标称数据的概念分层产生:

标称数据概念分层的产生方法:

(1)由用户或专家在模式级显示地说明属性的部分序

(2)通过显示数据分组说明分层结构的一部分

(3)说明属性集但不说明他们的偏序

(4)只说明部分属性集