数据挖掘和软件一样,“并非是几个天才的神秘劳动成果,而是分工明确,组织严密的工程化过程……”

CRISP-DM 数据挖掘通用流程_数据挖掘


正如软件工程有严格的各种模型,比如瀑布模型,数据挖掘一样有一系列的各种通用的流程,如果按照这些流程处理,就会把一个数据挖掘项目,变成按部就班的流程化工作,而不需要天才般创造性的思维和天赋。


早在1996年的时候,数据挖掘还是一个新生的事物,无论是市场还是应用都处于萌芽状态。由Daimlerhrysler(后来的Daimler-Benz:戴姆勒-奔驰(这个名字不用介绍了吧))

CRISP-DM 数据挖掘通用流程_数据挖掘_02


SPSS(玩统计和数据分析的,这个也不用介绍了吧)

 

CRISP-DM 数据挖掘通用流程_数据_03

 

以及NCR(天睿Teradata的母公司):

 

CRISP-DM 数据挖掘通用流程_流程模型_04

三家业界大佬联手起草了CRISP-DM标准流程模型,后来由欧洲委员会资助并且成立了相关联盟,最后成为了数据挖掘目前最主流的一种通用标准流程。

 

今天给大家简单介绍一下这个流程模型,如下:

CRISP-DM 数据挖掘通用流程_数据_05

从技术上说,数据挖掘主要就是构建四大类的模型:这些模型主要的工作还是对数据进行描述、总结和提炼。

CRISP-DM 数据挖掘通用流程_数据挖掘_06

从互联网上流行的所谓十大经典算法就可以看出来,分类占的比重还是最大的。

CRISP-DM 数据挖掘通用流程_数据挖掘_07

比较流行的数据挖掘流程,一共有三种,分布是

SEMMA:SAS提出的标准流程,主要由:数据取样、特征探索、数据调整、模型研发、综合解释组成。

5A:这也是SPSS提出的,包括了访问、分析、评估、行动和自动化。

最后就是我们今天要说的CRISP-DM模型了

CRISP-DM 数据挖掘通用流程_数据_08

CRISP-DM 数据挖掘通用流程_流程模型_09

CRISP-DM 数据挖掘通用流程_流程模型_10

CRISP-DM 数据挖掘通用流程_流程模型_11

CRISP-DM 数据挖掘通用流程_数据_12

CRISP-DM 数据挖掘通用流程_数据_13

CRISP-DM 数据挖掘通用流程_数据_14