CRISP-DM模型简介:
      CRISP-DM是Cross Industry Standard Process -Data Mining的缩写,是当今数据挖掘界通用的流行标准之一。它强调数据挖掘技术在商业中的应用,是用以管理并指导Data Miner 有效、准确的开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的标准规范。
CRISP-DM模型的基本步骤包括:

  • 商业理解:
          这一步骤旨在从商业角度理解项目的目标和需求,把理解转化为数据挖掘问题的定义和制定以实现目标为目的的初步计划。具体步骤包括:
    1、确定业务目标:
          分析项目背景,以业务视角分析项目的目标和需求,确定业务角度的成功标准;
    2、项目可行性分析:
          分析拥有的资源、条件和限制,进行风险、成本和效益的评估;
    3、确定数据挖掘目标:
          明确数据挖掘的目标和成功标准,数据挖掘目标和业务目标是不一样的,前者指的是在技术上,例如生成一颗决策树。
    4、提出项目计划:
          对整个项目做一个计划,初步确认用到的技术和工具。
  • 数据理解
          数据理解阶段开始于原始数据收集,然后是熟悉数据,表明数据质量问题,探索并初步理解数据,发觉有趣的子集以形成对隐藏信息的假设。具体步骤包括:
    1、收集原始数据:
          收集项目涉及的数据,如有必要,将数据导入数据处理工具中并做一些初步的数据集成工作,生成相应的报告;
    2、数据描述:
          对数据进行一些大致描述,例如记录数、属性数等并给出相应的报告;
    3、探索数据:
          对数据做一些建单的数据统计分析,例如关键属性的分布等;
    4、检查数据质量:
          包括数据是否完整,是否有错,受有缺失值等。
  • 数据准备
          数据准备阶段包括所有从原始的未加工的数据构造最终数据集的活动(这些数据集指的是将要嵌入建模工具中的数据)。数据准备任务可能被实施多次,而且没有任何规定的顺序。这些任务包括表格、记录和属性的选择以及按照建模工具要求,对数据进行转换和清洗。具体包括:
    1、数据选择
          根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择;
    2、数据清洁:
          提高选择好的数据的质量,例如去除噪音,填充缺失值等;
    3、数据创建:
          在原有的数据基础上生成新的属性或记录;
    4、数据合并:
          利用表连接等方式将几个数据集合并到一起;
    5、数据格式化:
          把数据转换成适合数据挖掘处理的格式。
  • 建立模型
          在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题类型,会有多种模型技术。一些技术对数据格式有特殊要求。因此常常需要返回数据准备阶段。具体步骤包括:
    1、选择建模技术:
          确定数据挖掘算法和参数,可能会利用多个算法;
    2、测试方案设计:
          设计某种测试模型的质量和有效性的机制;
    3、模型训练:
          在准备好的数据集上运行数据挖掘算法,得出一个或多个模型;
    4、模型测试评估:
          根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。
  • 模型评估
          进入项目的这个阶段,已经建立了一个或多个模型,从数据分析的角度来看,该模型似乎有很高的质量。在模型发布前,更为彻底的评估模型和检查建立模型的各个步骤,从而确保它真正的达到商业目标。此阶段的关键目的是决定是否存在一些重要的商业问题仍未得到充分的考虑。关于数据挖掘结果的使用决定应该在此阶段结束时确定下来。具体步骤包括:
    1、结果评估:
          从商业角度评估得到的模型,甚至实际试用该模型测试其效果;
    2、过程回顾:
          回顾项目的所有流程,确定每一个阶段都没有失误;
    3、确定下一步的工作:
          ;根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段重新开始。
  • 模型实施
          模型的创建通常并不是项目的结尾。即使建模的目的是增加对数据的理解,所获得的理解也需要进行组织并以一种客户能够使用的方式呈现出来。具体步骤包括:
    1、实施计划:
          对在业务运作中部署模型做出计划;
    2、监督和维护计划:
          如何监督模型在实际业务中的使用情况,如何维护该模型;
    3、做出最终报告:
          项目总结,项目经验和项目结果;
    4、项目回顾:
          回顾项目的实施过程,总结经验教训。对数据挖掘的运行效果做一个预测。