数据预处理主要包括数据清洗、数据集成、数据变换和数据规约。它一方面可以提高数据的质量,另一方面是要让数据更好的适应特定的挖掘技术或工具。统计发现数据预处理工作占整个工作的60%。
1.数据清洗:
主要是删除原始数据集中的无关数据、重复数据、平滑噪声数据、筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。
2.数据集成
数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。
在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将数据源在最低层上加以转换、提炼和集成。3.数据变换
对数据进行规范化处理,将数据转化为适当的形式,以适用于挖掘任务及算法的需要规范化:为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。
1.连续属性离散化
一些数据挖掘算法,特别是某些分类算法(如ID3,Apriori算法等)要求数据是分类属性形式。我们需要将这些离散属性变换为分类属性,即连续属性离散化。
基于聚类分析的方法:首先将连续属性的值用聚类算法(如K- Means算法)进行聚类,然后再将聚类得到的簇进行处理,合并到一个簇的连续属性值并做同一标记。聚类分析的离散化方法也需要用户指定簇的个数,从而决定产生的区间数。
2.小波变换
是一种新型的数据分析工具,在信号处理、图像处理、语音处理、模式识别、量子物理等领域得到越来越广泛的应用。小波变换具有多分辨率的特点,在时域和频率都具有表征信号局部特征的能力,通过伸缩和平移等运算过程对信号进行多尺度聚焦分析,提供看一种非平稳信号的时频分析手段,可以由粗到细地逐步观查信号,从中提取有用信息。
(1)基于小波变换的特征提取方法:基于小波变换的多尺度空间能量分布特征提取、基于小波变换的多尺度空间的模极大值特征提取、基于小波变换的特征提取、基于适应性小波神经网络的特征提取。
4.数据规约
在大数据集上进行复杂的数据分析和挖掘需要很长时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率。
意义:1.降低无效、错误的数据对建模的影响,提高建模准确性;2.少量且具代表性的数据将大幅缩减数据挖掘所需的时间;3.降低储存数据成本。