一.数据预处理概述:
1.数据质量涉及的六个因素:
(1)准确性
(2)完整性
(3)一致性
(4)时效性
(5)可信性:反映有多少数据是用户信赖的
(6)可解释性:反映数据是否容易理解
2.数据预处理原因:
改进数据质量,有助于提高其后的挖掘过程的准确率和效率,是知识发现过程的重要步骤
3.数据预处理的主要步骤:
(1)数据清理:数据清理例程通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决纠正数据中的不一致性来清理数据
(2)数据集成:集成多个数据库、数据立方体或文件,将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库中
(3)数据归约:得到数据集的简化表示,小得多,但能够产生同样的分析结果;包括维归约和数值归约
(4)数据变换:规范化、数据离散化和概念分层等
二.数据清理:
1.缺失值:
(1)忽略元组:缺少类标号时这样做
(2)人工填写缺失值:费时,当数据集大、缺失很多值时行不通
(3)使用一个全局变量填充缺失值:将缺失的属性值用同一个常量如“Unknown”替换
(4)使用属性的中心度量(如均值或中位数)填充缺失值
(5)使用于给定元组属同一类的所有样本的属性均值或中位数
(6)使用最可能的值填充缺失值:使用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定
2.噪声数据:
噪声:被测量的变量的随机误差或方差;
数据光滑技术(去掉噪声):
(1)分箱: 通过考察数据的近邻(即周围的值)来光滑有序数据值,这些有序的值被分布到一些桶或箱中,局部光滑;
有用箱均值光滑、用箱中位数光滑、用箱边界光滑
(2)回归: 用一个函数拟合数据来光滑数据
(3)离散点分析:通过如聚类来检测离群点
3.数据清理过程:
偏差检测:根据唯一性规则、连续性规则和空值规则考察数据
商业工具进行偏差检测: 数据清洗工具、数据审计工具、数据迁移工具、ETL(提取/变换/装入)工具
三.数据集成:
1.实体识别问题:来自多个信息源的等价实体如何才能匹配
2.冗余和相关分析:
有些冗余可以用相关分析检测到,给定两个属性,这种分析可以再根据可用的数据,度量一个熟悉能在多大程度上蕴含另一个
(1)标称数据的卡方检验
(2)数值数据的相关系数:计算属性A和B的相关系数Pearson积矩系数
(3)数值数据的协方差
3.元组重复
4.数据值冲突的检测与处理
四.数据归约:
1.数值归约策略:
(1)维归约:减少所考虑的随机变量或属性的个数;
维归约方法有:小波变换、主成分分析、属性子集选择
(2)数量归约: 用替代的、较小的数据表示形式替换原数据,这些技术可以是参数的或非参数的
参数方法:使用模型估计数据,使得一般只需要存放模型参数,而不是实际数据,比如回归和对数-线性模型
非参数方法:直方图、聚类、抽样和数据立方体聚变
(3)数据压缩: 使用变换,以便的带原数据的归约或压缩表示;可分为无损的和有损的
2.小波变换:
(1)离散小波变换(DWT):
是一种线性信号处理技术,用于数据向量X时,将它变换成不同的数值小波系数向量 X’,两个向量具有相同的长度;
当这种技术用于数据归约时,每个元组看做一个n维数据向量,描述n个数据库属性在元组上的n个测量值
(2)傅里叶变换(DFT):一种涉及正弦和余弦的信号处理技术
(3)流行的小波变换有:Haar_2、Daubechies-4和Daubechies-6
(4)离散小波变换的一般过程使用:层次金字塔算法,在每次迭代时将数据减半,导致计算速度很快
3.主成分分析(或PCA,又称K-L方法):
从n个属性或维描述的远足或数据向量中搜索k个最能代表数据的n维正交向量,这样原数据投影到一个小得多的空间上,导致维归约;
通过创建一个替换的、较小的变量集“组合”属性的基本要素,原数据可以投影到该较小的集合中;
PCA通常能揭示先前未曾察觉的联系,并因此允许解释不寻常的结果;
PCA能更好处理稀疏数据,小波变换适合高维数据
4.属性子集选择:
通过删除不相关或冗余的属性或维减少数据量;
目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布,减少了出现在发现模式上的属性数目,使得模式更易于理解
通常使用压缩搜索空间的启发式算法:
(1)逐步向前选择
(2)逐步向后删除
(3)逐步向前选择和逐步向后删除的组合
(4)决策树的归纳
5.回归和对数线性模型:参数化数据归约
对数据建模,使之拟合到一条直线
对数线性模型
6.直方图:
单值桶;划分规则:等宽、等频;存放高频率的离群点,单值桶很有用
7.聚类:
将对象划分为群或簇,使得在一个簇中的对象互相相似。而与其他簇中的对象相异
簇的质量度量:(1)直径 (2)形心
8.抽样:
用数据的小得多的随机样本表示大型数据集;
常用的抽样方法:
(1)无放回简单随机抽样(SRSWOR)
(2)有放回简单随机抽样(SRSWR)
(3)簇抽样
(4)分层抽样
抽样进行数据归约的优点:
得到样本的花费正比例于样本集的大小,而不是数据集的大小;抽样最常用来估计聚集查询的回答
9.数据立方体聚集:
基本方体:在最低抽象层创建的立方体,应当对应于感兴趣的个体实体(即对应于分析有用的)
顶点立方:最高层抽象的立方体
五.数据变换与数据离散化:
1.数据变换策略包括以下几种:
(1)光滑:去掉数据中的噪声,包括分箱、回归和聚类
(2)属性构造(或特征构造):可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程
(3)聚集:对数据进行汇总或聚集,通常用来为多个抽象层的数据分析构造数据立方体
(4)规范化:把属性数据按比例缩放,使之落入一个特定的小区间
(5)离散化:数值属性的原始值用区间标签或概念标签替换
(6)由标称数据产生概念分层
2.规范化变换数据:
赋予所有属性相等的权重;对于设计神经网络的分类算法或基于距离度量的分类(如最近邻分类)和聚类,规范化特别有用
规范法方法:
(1)最小-最大规范化:保持原始数据值之间的联系
(2)z分数规范化
(3)小数定标规范化:通过移动属性A四维值的小数点位置进行规范化
3.通过分箱离散化:
一种基于指定的箱个数的自顶向下的分裂技术;不使用类信息,是一种非监督的离散方法
4.通过直方图离散化:
非监督离散化技术
5.通过聚类、决策树和相关分析离散化:
(1)聚类:
(2)决策树:使用自顶向下划分方法;使用类标号,是监督的方法
(3)相关分析: ChiMerge,采用自底向上的策略,递归找出最邻近的区间然后合并他们,形成较大的区间;监督的技术
6.标称数据的概念分层产生:
标称数据概念分层的产生方法:
(1)由用户或专家在模式级显示地说明属性的部分序
(2)通过显示数据分组说明分层结构的一部分
(3)说明属性集但不说明他们的偏序
(4)只说明部分属性集