为了确保分析结果的准确性,我们需要对数据进行必要的处理。数据的预处理是一个复杂且很有必要的工作。对于数据的预处理,没有固定的方法。对于不同的具体问题,我们需要根据不同的具体情况,不同的具体问题来分析,进行数据的预处理。

对于数据预处理的任务,普遍的说法分为下列四个步骤: 数据清洗、数据集成、数据变换和数据规约。 具体的步骤如下:

一、数据清洗

数据清理主要针对数据数值上的各种异常情况的处理,根据数值异常情况的不同,数据清理具体包括移除异常值、替换缺失值、将干扰数据进行平滑处理以及纠正不一致数据。1、缺失值处理
对于缺失值,我们可以根据具体的问题具体对待。若此处数据对整体没有较大影响,我们即可删除该记录。其次我们可以使用插值,回归等方法借助于现有相邻的数据来估计补差该处数据
(1)使用均值、中位数或众数
(2)使用固定值
(3)最近邻补插法
(4)插值法
(5)回归法2、离群和噪声值处理
对于离群值的判断也是需要详细考虑和分析的一点,我们需要通过经验来判断数据是否是利群数据。对于噪声的影响,我们可以进行平滑处理。如我们可以借助于MATLAB中的smoothts函数或smoothdata函数来处理。
3、异常范围及类型值处理

二、数据集成

数据集成主要是增大样本数据量。主要方法如下:数据整合:以物理方式将数据一起导入到同一个数据存储。这通常涉及数据仓储技术。数据传播:使用称为“数据传播”的应用程序将数据从一个位置复制到另一个位置。此过程可 同步或异步执行,并且属于事件驱动型操作。数据虚拟化:使用界面提供来自多种不同来源的数据的实时的统一视图。可从单一访问点来查看数据。

三、数据变换

数据变换时将数据从一种形式变成另一种形式的过程。
数据转换包含以下处理内容:(1)平滑处理。该过程帮助除去数据中的噪声,主要技术方法有:Bin方法、聚类方法和回归方法。(2)合计处理。对数据进行总结或合计(Aggregation)操作。例如:每天销售额(数据)可以进行合计操作以获得每月或每年的总额。这样操作常用于构造数据立方体或对数据进行多细度的分析。(3)数据泛化处理(Gencralization)。所谓泛化处理就是用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。例如;街道属性,就可以泛化到更高层次的概念,如:城市、国家。同样对于数值型的属性,如年龄属性,就时以映射到吏高层次概念,加:年轻、中年和老年。(4)规格化。规格化就是将有关属性数据技比例投射到特定小范围之中。如将工资收入属性值映射到-0.1-1.0。

四、数据规约

数据规约的目的是减少数据量,降低数据的维度,删除冗余信息,提升分析准确性,减少计算量。数据规约包含的方法有:数据聚集、抽样、维规约。

数据预处理有很多的方法,下面有不同的作者对于数据预处理的步骤及方法的理解。


下面是一些专业网站对于文中的一些术语的解释:

数据变换 - MBA智库百科

数据预处理方法_北冥有小鱼-CSDN博客

该作者对于数据预处理的步骤有以下分类,可以借鉴参考:

1. 去除唯一属性 2. 处理缺失值 3. 特征编码 4. 数据标准化、正则化