数据挖掘六大任务数据挖掘六个阶段

转载

在《数据分析的高级应用，是时候搞懂数据挖掘了》一文中，为大家详细介绍了数据挖掘的商业价值，但是质量不高的数据会直接影响挖掘结果，可能导致得出错误的商业结论。

跨行业数据挖掘标准流程(CRISP-DM)把完整的数据挖掘过程定义为六个标准阶段，分别是业务理解、数据理解、数据准备、创建模型、模型评估和模型应用。

数据挖掘六大任务数据挖掘六个阶段_数据挖掘六大任务

其中，数据准备是数据挖掘流程中的一个重要环节。具体工作主要包括清理、规约、转换、抽样等一系列的预处理工作，提高数据的质量，使得数据挖掘算法可以更高效的执行以及获得更加有效的结果。

为什么要预处理数据

有些小伙伴可能会问，我的数据有现成的，为什么还要预处理数据，不能直接拿来进行数据挖掘吗？回答是，当然能。但是，现实往往是残酷的！

1. 现实世界的数据是肮脏的(不完整，含噪声，不一致)。

数据挖掘六大任务数据挖掘六个阶段_数据挖掘六大任务_02

2. 没有高质量的数据，就没有高质量的挖掘结果。

数据挖掘六大任务数据挖掘六个阶段_数据挖掘六大任务_03

3. 原始数据中存在很多问题，

数据挖掘六大任务数据挖掘六个阶段_数据挖掘六大任务_04

常用的数据预处理方法可以归纳为四个方面。

1、数据清理

缺失值处理：数据中的缺失值会影响挖掘的正常进行，造成挖掘结果不正确。对较大比例的缺失值可以进行忽略处理，少量的缺失值可以采用最大、最小、均值、中位数、自定义表达式等方式进行填充。
数据集成与过滤：用于去除冗余数据、进行重复值检测、编码一致性、数据一致性等。

2、数据规约

维规约：减少所考虑的随机变量或属性的个数(主成分分析PCA)。例如，一个汽车数据的样本，里面既有“千米/每小时”的速度特征，也有“英里/小时”的速度特征，显然有一个多余，需要消除冗余的特征。
数量规约和压缩：用替代的、较小的数据表示形式替换原数据。例如，不同年份的数据特征基本一样，可以只保留一个年份的数据进行挖掘。

3、数据变换

属性构造：从给定属性构造新的属性，或者将属性类别进行变换，辅助数据挖掘过程。例如根据月收入和奖金等属性可以构造出年收入，便于用来预测年收入。
归一化：将不同度量方式的数据放在同一个度量体系中进行比较。比如通过min-max标准化方法来求某个字段A的新值，然后进行比较分析。归一化是为了后面数据挖掘算法的方便，保正程序运行时收敛加快，提高挖掘的精度。
标准化：数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。可以通过z-score方法对原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化，同时不改变原始数据的分布。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。
离散化：也叫分箱，将数值属性的原始值用区间标签或概念标签进行替换。如年收入数据，可以通过2-3W、3-5W等区间符号标识，也可以用高收入、中等收入、低收入进行离散化。

4、数据抽样

通过数据抽样来减少用于挖掘的数据量或者从一个大型数据集中提取大小固定的样本。