数据挖掘和软件一样,“并非是几个天才的神秘劳动成果,而是分工明确,组织严密的工程化过程……”
正如软件工程有严格的各种模型,比如瀑布模型,数据挖掘一样有一系列的各种通用的流程,如果按照这些流程处理,就会把一个数据挖掘项目,变成按部就班的流程化工作,而不需要天才般创造性的思维和天赋。
早在1996年的时候,数据挖掘还是一个新生的事物,无论是市场还是应用都处于萌芽状态。由Daimlerhrysler(后来的Daimler-Benz:戴姆勒-奔驰(这个名字不用介绍了吧))
SPSS(玩统计和数据分析的,这个也不用介绍了吧)
以及NCR(天睿Teradata的母公司):
三家业界大佬联手起草了CRISP-DM标准流程模型,后来由欧洲委员会资助并且成立了相关联盟,最后成为了数据挖掘目前最主流的一种通用标准流程。
今天给大家简单介绍一下这个流程模型,如下:
从技术上说,数据挖掘主要就是构建四大类的模型:这些模型主要的工作还是对数据进行描述、总结和提炼。
从互联网上流行的所谓十大经典算法就可以看出来,分类占的比重还是最大的。
比较流行的数据挖掘流程,一共有三种,分布是
SEMMA:SAS提出的标准流程,主要由:数据取样、特征探索、数据调整、模型研发、综合解释组成。
5A:这也是SPSS提出的,包括了访问、分析、评估、行动和自动化。
最后就是我们今天要说的CRISP-DM模型了