数据挖掘实例代码 数据挖掘程序_数据挖掘

数据挖掘流程及主流工具

限于篇幅,本文并不想对数据挖掘的技术多加阐述,读者可以阅读一些经典教材来获得相应的知识,比如《数据挖掘:概念与技术》、《数据挖掘原理》、《机器学习》等。一般来说,常用的数据挖掘技术包括:用于客户细分的聚类算法,用于交叉销售的关联分析和序列分析算法,用于客户价值分析、流失分析、交叉销售的决策树、神经网络和回归等预测算法,用于互联网的文本挖掘和Web分析等等。

Eric King在“如何在数据挖掘上投资:避免预测型分析中昂贵的项目陷阱的框架”一文(发表于2005年10月的“DM Review”)中主张数据挖掘是一段旅程,而非终点。他把这段旅程定义为数据挖掘过程。该过程包含如下要素:

l        

l        

l        

l        

l        

l        

l        

很多数据挖掘工具的厂商都对这个过程进行了简化,使之更加清晰。SAS将数据挖掘过程划分为五个阶段: 抽样(Sample),探索(Explore),处理(Manipulate),建模(Model),评估(Assess)。过去人们常用循环式的饮水器来比喻数据挖掘过程。水(数据)首先涌上第一层(分析阶段),形成漩涡(精炼和反馈),等到聚积了足够多“已经处理过”的水之后,就溢出来流到下一个更低的层中。不断地进行这种“处理”,直到水流到最低层。在那里它被抽回顶层,开始新一轮的“处理”。数据挖掘和这种层次式的叠代过程非常相像。甚至在很多数据挖掘算法的内部处理也是如此,比如神经网络算法,就是在数据集上多次运行(epochs),直至发现最优解。

但使用饮水器来比喻数据挖掘过程还不算恰当,因为它没有反映出反馈环路,而反馈环路在数据挖掘过程中是很常见的。例如,通过数据评估可以发现异常的数据,从而要求从源系统中抽取更多的数据。或者,在建模之后,会发现需要更多的记录才能反映总体的分布。

“工欲善其事,必先利其器”。当企业打算运用数据挖掘来改善企业运营时,选择合适的数据挖掘工具就变得很重要了。工具的选择通常会从以下角度来考虑(同时还需结合企业的信息化水平、具体的业务目标、要处理的数据量、对业务流程的改变等因素):

l         数据存取能力:能否访问各种类型的数据,数据接口的效率如何

l        

l        

l        

l        CPU,多线程,分布式架构

l        

l        API,元数据管理等

企业也可以参考第三方评估机构的评测结果,来选择数据挖掘工具,比较权威的评估机构包括Gartner、IDC等等。以下引用Gartner在2007年第2季度发布的“客户数据挖掘魔力象限”评估报告的部分内容,向大家简单介绍主流的数据挖掘产品。

“最近,著名软件评测商Gartner对数据挖掘领域软件进行了评测,最终的结果是,SAS和SPSS以及领域中的传统地位仍然位于数据挖掘的领导者象限。异军突起的是KXEN和Portrait Software,作为远见卓识家而出现。挑战者是一片空白,其它的十余个厂商占据着利基市场。”

“在此项评测中,共有SAS、SPSS、KXEN、Portrait Software、Angoss Software、Unica、ThinkAnalytics、Fair Isaac、Infor CRM Epiphany等九家公司入选,这代表着当今的市场情况,在中国市场,主要的数据挖掘工具是SAS、KXEN和SPSS。”

在2006年第1季度的评估报告中,还曾包含Chordiant和Teradata等厂商。

评测的结果参见下图。评估标准主要划分为两个角度:执行力(纵轴)和视角完整性(横轴)。其中执行力的评估包括七个评估标准,分别是产品/服务、市场反应和跟踪记录、总体生存能力、客户体验、市场执行、销售执行/定价和运营能力。视角完整性的评估包括八个评估标准,分别是产品策略、市场理解力、市场策略、销售策略、垂直/行业策略、商业模型、创新能力和地理战略。

数据挖掘实例代码 数据挖掘程序_数据挖掘_02

图: Gartner客户数据挖掘魔力象限(2007年第2季度)

在上图中,把主流的数据挖掘厂商划分为四个象限,分别是领导者(Leaders)、挑战者(Challengers)、远见卓识家(visionaries)和利基市场(niche players)。以下对数据挖掘领域内的两大领导厂商SAS和SPSS分别简要介绍。

数据挖掘实例代码 数据挖掘程序_数据挖掘实例代码_03


SAS


在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。

SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS。

SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。

SPSS


SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS。

SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。


SAS


在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。

SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS。

SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。

SPSS


SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS。

SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。