跨行业数据挖掘标准流程(CRISP-DM): (cross-industry standard process for data mining)。


此KDD过程模型于1999年欧盟机构联合起草.通过近几年的发展,CRISP-DM模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自CiosandKurgan于2005年合著的论文trands in data mining and knowledge discovery中)



CRISP-DM并不是什么新观念,本质来看就是在分析应用中提出问题、分析问题和解决问题的过程。而可贵之处在于其提纲挈领的特性,非常适合工程管理,适合大规模定制,以至CRISP-DM如今已经成为事实上的行业标准,"调查显示,50%以上的数据挖掘工具采用的都是CRISP-DM的数据挖掘流程"。






知识发现(KDD:Knowledge Discovery in Database):是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。该术语于1989年出现,Fayyad定义为"KDD"是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程"。









实现流程(CRISP-DM过程5)



CRISP-DM模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.



1:business understanding:即 商业理解.在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么.并将这些目的与数据挖掘的定义以及结果结合起来.



2.data understanding: 数据的理解以及收集,对可用的数据进行评估.



3:data preperation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.



4:modeling:即应用数据挖掘工具 建立模型.



5:evaluation:对建立的模型进行 评估,重点具体考虑得出的结果是否符合第一步的商业目的.



6:deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)