机器学习中数据预处理方法数据预处理应用

转载

mob64ca1416b5a8 2024-02-05 14:31:21

文章标签 机器学习中数据预处理方法中对缺失数据的预处理数据数据预处理缺失值 文章分类 机器学习人工智能

为了确保分析结果的准确性，我们需要对数据进行必要的处理。数据的预处理是一个复杂且很有必要的工作。对于数据的预处理，没有固定的方法。对于不同的具体问题，我们需要根据不同的具体情况，不同的具体问题来分析，进行数据的预处理。

对于数据预处理的任务，普遍的说法分为下列四个步骤： 数据清洗、数据集成、数据变换和数据规约。具体的步骤如下：

一、数据清洗

数据清理主要针对数据数值上的各种异常情况的处理，根据数值异常情况的不同，数据清理具体包括移除异常值、替换缺失值、将干扰数据进行平滑处理以及纠正不一致数据。1、缺失值处理
对于缺失值，我们可以根据具体的问题具体对待。若此处数据对整体没有较大影响，我们即可删除该记录。其次我们可以使用插值，回归等方法借助于现有相邻的数据来估计补差该处数据
(1)使用均值、中位数或众数
(2)使用固定值
(3)最近邻补插法
(4)插值法
(5)回归法2、离群和噪声值处理
对于离群值的判断也是需要详细考虑和分析的一点，我们需要通过经验来判断数据是否是利群数据。对于噪声的影响，我们可以进行平滑处理。如我们可以借助于MATLAB中的smoothts函数或smoothdata函数来处理。
3、异常范围及类型值处理

二、数据集成

数据集成主要是增大样本数据量。主要方法如下：数据整合：以物理方式将数据一起导入到同一个数据存储。这通常涉及数据仓储技术。数据传播：使用称为“数据传播”的应用程序将数据从一个位置复制到另一个位置。此过程可同步或异步执行，并且属于事件驱动型操作。数据虚拟化：使用界面提供来自多种不同来源的数据的实时的统一视图。可从单一访问点来查看数据。

三、数据变换

数据变换时将数据从一种形式变成另一种形式的过程。
数据转换包含以下处理内容：(1)平滑处理。该过程帮助除去数据中的噪声，主要技术方法有：Bin方法、聚类方法和回归方法。(2)合计处理。对数据进行总结或合计(Aggregation)操作。例如：每天销售额(数据)可以进行合计操作以获得每月或每年的总额。这样操作常用于构造数据立方体或对数据进行多细度的分析。(3)数据泛化处理(Gencralization)。所谓泛化处理就是用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。例如；街道属性，就可以泛化到更高层次的概念，如：城市、国家。同样对于数值型的属性，如年龄属性，就时以映射到吏高层次概念，加：年轻、中年和老年。(4)规格化。规格化就是将有关属性数据技比例投射到特定小范围之中。如将工资收入属性值映射到-0.1-1.0。