数据挖掘项目的特征和关键环节

原创

陈华英 2006-10-09 14:02:12 ©著作权

©著作权归作者所有：来自51CTO博客作者陈华英的原创作品，请联系作者获取转载授权，否则将追究法律责任

features and key processes of data mining project

chen hua-ying civil aviation flight university of china

abstract: data mining technology attracts increasingly focus as the natural expansion of the it application in today’s enterprises. this paper deeply analyze the features, team member roles, methodology and key processes of data mining project, based on the experiences and summaries of projects implemented. it offers the academic gists for advanced track the knowledge of data mining and projects implement and create benefit. the correlative theory and technology of data mining must be focus proposition of domestic information technology domain.

key words: data mining; data mining methodology; semma; crisp-dm; scoring

1 数据挖掘简介

数据挖掘业界权威michael berry和gordon linoff的论述，数据挖掘是利用自动或半自动手段揭示大量数据中有意义的潜在规律的处理过程。这里需要强调的是“大量数据”和“有意义的潜在规律”，这两个特征将数据挖掘与传统的独立分散的数据分析及简单的数据库查询、报表应用区分开来。

数据挖掘应用在近年来迅速发展，其基础是关系型数据库系统应用的逐步普及和成熟，以数据库形态存在的业务数据大量积累，为数据挖掘中的“大量数据”和“自动或半自动手段”提供了可能；其驱动力是业务需求的发展，尤其是数据库应用系统上线后给业务需求带来的正反馈作用；其核心是产品化的数据挖掘产品和实施咨询服务。

2 数据挖掘项目形态

2.1基于数据仓库的数据挖掘

在很多项目中，数据挖掘是整合数据平台特别是数据仓库的延伸应用。通常，大型项目中，在数据仓库中为特定主题的数据挖掘建立数据集市，使得数据可以通过比较系统的形式定期加载更新，作为较为稳定的数据挖掘数据源；经过数据挖掘得到的数据规律，以计分预测或者与营销系统整合等形式发布到企业中，并经过一定的收效评估和阶段回顾，得出项目阶段性结论[1]。这种类型的项目，数据挖掘和数据仓库紧密结合，取用统一数据，有利于数据挖掘过程在企业的重用和固化，建立稳定的应用模式；但是数据挖掘的过程在较大程度上受到数据仓库建设的制约，见效的周期可能会较长，短期的投资见效比不理想，而且项目有很可能因数据仓库方面的问题而非数据挖掘的问题导致失败。

2.2先导型数据挖掘

数据挖掘项目也可以独立于数据仓库存在。在挖掘的主题已经明确而相应的数据仓库还未建立，或者是项目有较强的预研性的情况下，数据挖掘项目可以直接进入主题，取用运营系统的原始数据，建立针对具体数据挖掘用途的专用数据区，不考虑太多的重用批量加载环节，尽快地开始挖掘过程，并将结果与业务迅速沟通。这样做的好处是便于企业更直接地体验数据挖掘的效益，尤其是业务管理部门可以很快得到来自数据规律的直接决策支持信息，数据挖掘受数据仓库建设过程的制约较少，见效周期短，短期的投资见效比比较好。但是比较难形成较为稳定的应用模式，同时由于数据源及转换处理往往独立于企业数据仓库建设，部分工作可能会在以后的数据集市过程中重复开始，甚至出现数据的不一致性，如果存在过多的这种彼此独立的项目，将造成局部“信息孤岛”现象[2]。

在我们实施的数据挖掘案例中，将以上两种模式有机地结合在一起，先利用一个或几个主题的独立数据挖掘项目的开展，为企业数据仓库提供面向数据挖掘的数据需求，同时，这些独立项目中的数据准备环节充分考虑数据仓库的思路。这样，在数据仓库建设中，可以得到更多的来自数据挖掘的设计要求和参考经验，有效地建立数据仓库和数据挖掘整体系统。

3 数据挖掘项目的架构

3.1数据挖掘方法论简介

数据挖掘的架构是建立在成熟、合理的方法论基础上的。主要有semma方法论和crisp-dm方法论。semma方法论以抽样（sample）、探索（explore）、修改（modify）、建模（model）、评估（assess）为核心环节，强调数据挖掘过程是这5个环节的有机循环。crisp-dm是跨行业数据挖掘标准流程（cross-industry standard process for data mining）的缩写，强调以业务理解（business understanding）、数据理解（data understanding）、数据准备（data preparation）、建模（modeling）、评价（evaluation）、发布（deployment）为核心环节，将数据挖掘目标和商务目标有机地联系在一起[3]。

在实际应用中，我们将上述两种方法有机地结合起来，crisp-dm强调高层的商务目的实现过程，semma强调具体的数据挖掘技术实现过程。

3.2主要环节

综合我们实际进行的数据挖掘，数据挖掘项目可以分为以下几个主要环节，如图1所示。

a) 定义业务问题

这个环节的任务包括：评估数据挖掘过程的成本和商务收益间是否平衡，识别分析目标的焦点范围，收集相关的业务规则，确定数据源的可用性和验证行业专家的观点。

b) 转换数据格式使之适应数据挖掘的要求

这是技术性最强的环节，包括了数据准备和数据挖掘建模。主要流程如图2。

确定并获取数据

首先，要根据已经明确的业务问题，定义需要被预测或研究的目标因素。然后，确认数据中包含在历史上已经发生的目标因素的结果值，例如，预测客户流失，历史数据中需要包含客户是否发生流失的信息。同时数据中还应该包含与目标因素可能相关的各类信息，在了解数据源的过程中，还应该明确数据的更新加载方式，这样才能够形成不断使用最近数据，预测未来目标的循环应用模式。

验证，探索，清洗数据

需要确定数据的来源是否可靠。考察数据项是自动衍生还是手工录入，是否存在缺失现象，取值是否符合规定，是否合理，数值分布是否可以解释，等等。

转置数据，形成合适的颗粒度

数据挖掘需要的数据往往是一个事件一行，一行中包含所有的相关属性。例如，客户价值分析中，以客户号为核心，将客户的各种指标在时间上的快照聚集到一行上。这种形式，需要对原始数据进行相应的转置操作，例如，将多个属性行对应一个一个客户的结构转置成一个客户行多个属性列的格式。

增加衍生变量

很多情形下，原始的数据列和目标因素之间不易找到明显的相关性，需要增加一些衍生变量，以辅助分析。例如，在客户使用量这个指标的基础上，增加客户的用量的三个月平均变动率，等等。

准备建模用的数据

这个环节需要考虑分析的时间段和时间颗粒度（周，月，季等），建模用的数据必须匹配相应的时间要求，数据中时间的发生必须在相应的时间段内。同时，可能需要对小概率事件进行过抽样（oversampling）以适应建模技术。在很多情形下，还可能对数据做剖分（partition），将历史数据分为训练（train）、验证（validate）、测试（test）三个部分，以便取得较好的预测效果，避免过拟合（overfitting）现象[4]。这些操作，将使数据更加适合数据挖掘的建模工作。

选择合适建模技术，训练模型

这个环节，就是狭义上的“数据挖掘”，实质上是挖掘建模的具体技术过程。我们采用semma方法论逐步找到合适的建模技术，训练数据，最终找到规律和模式[5]。

检验模型的效果

在模型检验中，会使用历史数据中部分已有结果，以测试数据的形式与模型预测结果对比，客观地考察预测准确性。在真正的预测期间，只能等到未来的数据结果变成现实后，才能对预测结果作出对比，因此，需要有一个模型在市场环境中的试投放的时期，来检验模型真实效果。

c) 对分析结果进行理解和应用

利用数据挖掘的最终结果和中间结果，可以深入了解企业数据的分布特征和存在的问题，进行一次性的专题分析或是周期性分析预测，还可以建立实时评分系统如客户信用评分系统等，也可以为企业数据系统的改进提供重要的依据。

d) 评估模型的收效

将模型的结果和投入成本与真实的业务收效相比，最终对数据挖掘过程作出综合评价。

4 小结

数据挖掘项目在目前，特别是在国内，还处于边界条件尚未明确界分的阶段，并不是很成熟。但是数据挖掘项目的特质之一就是动态性，这种动态性是由它与企业业务的密切结合决定的，它对于业务的辅助作用的力度和直接程度超过了传统的业务支撑系统、mis系统，也超过了数据仓库应用中的报表查询系统；企业对于决策信息的需求，在数据挖掘项目中，找到了前所未有的载体，因此，数据挖掘应用拥有更加广阔深远的前景。随着数据挖掘中某些应用的进一步成熟，数据挖掘将在各大行业中逐步形成有层次的产业链。

所以，不断地跟踪最新的数据挖掘知识和项目实施方法论，不断地通过数据挖掘项目实践来创造业务效益，应该作为国内信息技术领域在今后一个时期的焦点命题。本文挂靠中国民航飞行学院科研基金，项目名称是“设备虚拟网”，基金编号是j2004-23。

参考文献

[2] y. vassiliou, maurizio lenzerini, panos vassiliadis. fundamentals of data warehouses november 2002 publisher. springer verlag; 2nd edition (january 17, 2003).

[3]（加）jiawei han micheline kamber. 数据挖掘概念与技术. 机械工业出版社，2001年.

[4] 萨师煊. 数据库系统概论. 高等教育出版社，2004年.

[5] 郭崇慧. 数据挖掘教程. 清华大学出版社，2005年.