在很多项目中,数据挖掘是整合数据平台特别是数据仓库的延伸应用。通常,大型项目中,在数据仓库中为特定主题的数据挖掘建立数据集市,使得数据可以通过比较系统的形式定期加载更新,作为较为稳定的数据挖掘数据源;经过数据挖掘得到的数据规律,以计分预测或者与营销系统整合等形式发布到企业中,并经过一定的收效评估和阶段回顾,得出项目阶段性结论[1]。这种类型的项目,数据挖掘和数据仓库紧密结合,取用统一数据,有利于数据挖掘过程在企业的重用和固化,建立稳定的应用模式;但是数据挖掘的过程在较大程度上受到数据仓库建设的制约,见效的周期可能会较长,短期的投资见效比不理想,而且项目有很可能因数据仓库方面的问题而非数据挖掘的问题导致失败。
2.2先导型数据挖掘
数据挖掘项目也可以独立于数据仓库存在。在挖掘的主题已经明确而相应的数据仓库还未建立,或者是项目有较强的预研性的情况下,数据挖掘项目可以直接进入主题,取用运营系统的原始数据,建立针对具体数据挖掘用途的专用数据区,不考虑太多的重用批量加载环节,尽快地开始挖掘过程,并将结果与业务迅速沟通。这样做的好处是便于企业更直接地体验数据挖掘的效益,尤其是业务管理部门可以很快得到来自数据规律的直接决策支持信息,数据挖掘受数据仓库建设过程的制约较少,见效周期短,短期的投资见效比比较好。但是比较难形成较为稳定的应用模式,同时由于数据源及转换处理往往独立于企业数据仓库建设,部分工作可能会在以后的数据集市过程中重复开始,甚至出现数据的不一致性,如果存在过多的这种彼此独立的项目,将造成局部“信息孤岛”现象[2]。
在我们实施的数据挖掘案例中,将以上两种模式有机地结合在一起,先利用一个或几个主题的独立数据挖掘项目的开展,为企业数据仓库提供面向数据挖掘的数据需求,同时,这些独立项目中的数据准备环节充分考虑数据仓库的思路。这样,在数据仓库建设中,可以得到更多的来自数据挖掘的设计要求和参考经验,有效地建立数据仓库和数据挖掘整体系统。
3 数据挖掘项目的架构
3.1数据挖掘方法论简介
数据挖掘的架构是建立在成熟、合理的方法论基础上的。主要有semma方法论和crisp-dm方法论。semma方法论以抽样(sample)、探索(explore)、修改(modify)、建模(model)、评估(assess)为核心环节,强调数据挖掘过程是这5个环节的有机循环。crisp-dm是跨行业数据挖掘标准流程(cross-industry standard process for data mining)的缩写,强调以业务理解(business understanding)、数据理解(data understanding)、数据准备(data preparation)、建模(modeling)、评价(evaluation)、发布(deployment)为核心环节,将数据挖掘目标和商务目标有机地联系在一起[3]。
在实际应用中,我们将上述两种方法有机地结合起来,crisp-dm强调高层的商务目的实现过程,semma强调具体的数据挖掘技术实现过程。
3.2主要环节
综合我们实际进行的数据挖掘,数据挖掘项目可以分为以下几个主要环节,如图1所示。
这个环节的任务包括:评估数据挖掘过程的成本和商务收益间是否平衡,识别分析目标的焦点范围,收集相关的业务规则,确定数据源的可用性和验证行业专家的观点。
b) 转换数据格式使之适应数据挖掘的要求
这是技术性最强的环节,包括了数据准备和数据挖掘建模。主要流程如图2。
首先,要根据已经明确的业务问题,定义需要被预测或研究的目标因素。然后,确认数据中包含在历史上已经发生的目标因素的结果值,例如,预测客户流失,历史数据中需要包含客户是否发生流失的信息。同时数据中还应该包含与目标因素可能相关的各类信息,在了解数据源的过程中,还应该明确数据的更新加载方式,这样才能够形成不断使用最近数据,预测未来目标的循环应用模式。
需要确定数据的来源是否可靠。考察数据项是自动衍生还是手工录入,是否存在缺失现象,取值是否符合规定,是否合理,数值分布是否可以解释,等等。
转置数据,形成合适的颗粒度
数据挖掘需要的数据往往是一个事件一行,一行中包含所有的相关属性。例如,客户价值分析中,以客户号为核心,将客户的各种指标在时间上的快照聚集到一行上。这种形式,需要对原始数据进行相应的转置操作,例如,将多个属性行对应一个一个客户的结构转置成一个客户行多个属性列的格式。
增加衍生变量
很多情形下,原始的数据列和目标因素之间不易找到明显的相关性,需要增加一些衍生变量,以辅助分析。例如,在客户使用量这个指标的基础上,增加客户的用量的三个月平均变动率,等等。
这个环节,就是狭义上的“数据挖掘”,实质上是挖掘建模的具体技术过程。我们采用semma方法论逐步找到合适的建模技术,训练数据,最终找到规律和模式[5]。
在模型检验中,会使用历史数据中部分已有结果,以测试数据的形式与模型预测结果对比,客观地考察预测准确性。在真正的预测期间,只能等到未来的数据结果变成现实后,才能对预测结果作出对比,因此,需要有一个模型在市场环境中的试投放的时期,来检验模型真实效果。
c) 对分析结果进行理解和应用
利用数据挖掘的最终结果和中间结果,可以深入了解企业数据的分布特征和存在的问题,进行一次性的专题分析或是周期性分析预测,还可以建立实时评分系统如客户信用评分系统等,也可以为企业数据系统的改进提供重要的依据。
d) 评估模型的收效
将模型的结果和投入成本与真实的业务收效相比,最终对数据挖掘过程作出综合评价。
4 小结
所以,不断地跟踪最新的数据挖掘知识和项目实施方法论,不断地通过数据挖掘项目实践来创造业务效益,应该作为国内信息技术领域在今后一个时期的焦点命题。本文挂靠中国民航飞行学院科研基金,项目名称是“设备虚拟网”,基金编号是j2004-23。
参考文献
[1] michael j.a. berry and gordon s. linoff . mastering data mining. john wiley & s isbn 0-471-33123-6,copyright 2000.
[2] y. vassiliou, maurizio lenzerini, panos vassiliadis. fundamentals of data warehouses november 2002 publisher. springer verlag; 2nd edition (january 17, 2003).
[3](加)jiawei han micheline kamber. 数据挖掘概念与技术. 机械工业出版社,2001年.
[4] 萨师煊. 数据库系统概论. 高等教育出版社,2004年.
[5] 郭崇慧. 数据挖掘教程. 清华大学出版社,2005年.