数据预处理主要的基本处理方法

  • 数据预处理主要包括数据清洗(Data Cleaning)、数据集成(Data Integration)、数据转换(Data Transformation)和数据消减(Data Reduction)。

大数据预处理的主要目的

  • 数据预处理负责将分散的、异构数据源中的数据如关系数据、网络数据、日志数据、文件数据等抽取到临时中间层,然后进行清洗、转换、集成,最后加载到数据仓库或数据库中,成为通过数据分析、数据挖掘等方式提供决策支持的数据。数据预处理能够帮助改善数据的质量,进而帮助提高数据挖掘进程的有效性和准确性。

大数据预处理的整体架构,对于结构化数据和半结构化/非结构化数据的处理方式

  • 对于结构化数据采用传统ETL工具
  • 对于半结构化/非结构化采用分布式并行处理框架

数据的质量问题

根据数据源的多少和所属层次(定义层和实例层)分为4类

  • 单数据源定义层
    违背字段约束条件,例如:日期出现7月7日,字段属性依赖冲突,例如:两条记录描述同一个人的某一个属性,但数值不一致。违反唯一性,如:同一个主键ID出现了多次等。
  • 单数据源实例层
    单个属性值含有过多信息,拼写错误,存在空白值,存在噪音数据,数据重复,数据过时等。
  • 多数据源定义层
    同一个实体的不同称呼,如:custom_id、custom_num。同一种属性的不同定义,如:字段长度定义不一致,字段类型不一致等。
  • 多数据源实例层
    数据的维度、粒度不一致,如:有的按GB记录存储量,有的按TB记录存储量;有的按照年度统计,有的按照月份统计。数据重复,拼写错误等。

数据清洗的方法,每种方法的主要功能

概念

数据清洗是指消除数据中存在的噪声及纠正其不一致的错误
的数据集。

种类
  • 噪声数据:是指数据中存在着错误或异常(偏离期望值)的数据。
  • 不完整数据:是指感兴趣的属性没有值。
  • 不一致数据:是指数据内涵出现不一致的情况
方法
  • 遗漏数据处理
    1)忽略该条记录。
    2)手工填补遗漏值。
    3)利用默认值填补遗漏值。
    4)利用均值填补遗漏值。
    5)利用同类别均值填补遗漏值。
    6)利用最可能的值填补遗漏值。
  • 噪声数据处理
    1)Bin方法
    Bin方法通过利用应被平滑数据点的周围点(近邻),对一组排序数据进行平滑。排序后的数据被分配到若干桶(称为Bins)中。对Bin的划分方法一般有两种,一种是等高方法,即每个Bin中的元素的个数相等,另一种是等宽方法,即每个Bin的取值间距相同。
    2)聚类分析方法
    通过聚类分析方法可以帮助发现异常数据。相似或临近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据。
    3)人机结合检查方法
    通过人机结合检查方法,可以帮助发现异常数据。
    4)回归方法
    利用拟合函数对数据进行平滑。
  • 不一致数据处理
    1)现实世界的数据库常出现数据记录内容不一致的问题,其中的一些数据可以利用它们与外部的关联,手工解决这种问题。

数据集成处理主要解决问题

  • 概念
    数据集成是指将来自多个数据源的数据合并到一起构成一个完整数据集合。
  • 主要问题
    1)模式集成问题
    模式集成问题就是如何使来自多个数据源的现实世界的实体相互匹配,这其中就涉及实体识别问题。
    2)冗余问题
    若一个属性可以从其他属性中推演出来,那这个属性就是冗余属性。

数据转换的作用,主要的处理内容

  • 概念
    数据转换是指将一种格式的数据转换为另一种格式的数据
  • 处理内容
    1)平滑处理
    帮助去除数据中的噪声,主要技术方法有Bin方法、聚类方法和回归方法。
    2)合计处理
    对数据进行总结和合计操作。
    3)数据泛化处理
    用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。
    4)规格化处理
    将有关属性数据按比例投射到特定的小范围之中。
    – 最大最小规格化方法:(待转换属性值 - 属性最小值) / (属性最大值 - 属性最小值)* (映射区间最大值 - 映射区间最小值)+ 映射区间最小值
    – 零均值规格化方法:(待转换属性值 - 属性平均值)/ 属性方差
    – 十基数变换规格化方法:待转换属性值 / 10 jn,其中j为能够使属性绝对值的最大值小于1的最小值。
    5)属性构造处理
    根据已有属性集构造新的属性,以帮助数据处理过程。

数据消减的主要目的,主要策略

  • 概念
    数据消减技术的主要目的就是从原有巨大数据集中获得一个精简的数据集,并使这一精简数据集保持原有数据集的完整性。
  • 策略
    1)数据聚合(Data Aggregation),如构造数据立方。
    2)消减维数(Dimension Reduction),如通过相关分析消除多余属性。
    3)数据压缩(Data Compression),如利用编码方法(如最小编码长度或小波)。
    4)数据块消减(Numerosity Reduction),如利用聚类或参数模型替代原有数据。此外,利用基于概念化树的泛化(Generalization)也可以实现对数据规模的消减。

离散化的主要作用

离散化技术方法可以通过将属性阈值范围分为若干区间,来帮助消减一个连续属性的取值个数。

数值概念层次树的主要构造方法,类别概念层次树的主要构造方法

  • 数值概念层次树的主要构造方法
    1)Bin方法
    2)直方图方法
    3)聚类分析方法
    4)基于熵的方法
    5)自然划分分段方法
  • 类别概念层次树
    类别数据是一种i离散数据。类别属性可取有限个不同的值且这些值之间无大小和顺序。
  • 构造类别属性的概念层次树的主要方法
    1)属性值的顺序关系已在用户或专家指定的模式定义中说明。
    2)通过数据聚合来描述层次树。
    3)定义一组属性但不说明其顺序。