很多人估计还不清楚数据挖掘的目的是什么,其实数据挖掘的两大目的就是是预测和描述数据,其中前者的计算机建模及实现过程通常被称为监督学习(supervised learning) ,后者的则通常被称为无监督学习(supervised learning) 。往更细分,数据挖掘的目标可以划分为以下这些:
预测数据
预测性挖掘任务对当前数据进行推断,以做出预测。预测主要包括分类——将样本划分到几个预定义类之一;回归——将样本映射到一个真实值预测变量上。也就是说给了一定的目标属性,让去预测目标的另外一特定属性。如果该属性是离散的,通常称之为“分类”,而如果目标属性是一个连续的值,则称之为“回归”。
描述数据
描述性挖掘任务是描述数据库中数据的一般性质。描述主要包括聚类——将样本划分为不同类(无预定义类),关联规则发现——发现数据集中不同特征的相关性。这是指找出数据间潜在的联系模式。其他的描述任务还有异常检测,其过程类似于聚类的反过程,聚类将相似的数据聚合在一起,而异常检测将离群太远的点给剔除出来。

说起来可能很复杂,不容易理解,为了帮助大家了解数据挖掘是如何进行的,如何对预测性挖掘任务对当前数据进行推断,以做出预测。我引用Smartbi的数据挖掘平台(Smartbi Mining)快速搭建一个银行客户流失的预测的过程。

1.新建实验

Smartbi数据挖掘的默认界面为‘实验管理’界面,该界面可以进行‘新建实验’:

新建方式1:在文件夹右键菜单‘新建’中单击‘实验’;

新建方式2:单击‘新建实验’。

数据挖掘目标不在于数据采集策略 数据挖掘的目标定义_数据

2.选择数据源

根据原始数据存放的方式在选择数据源节点,将数据源节点拖拽至画布区域,并在参数面板上进行数据源信息的设置。

数据挖掘目标不在于数据采集策略 数据挖掘的目标定义_大数据_02

3.数据模型搭建

特征选择:将‘卡等级’、‘是否为代发客户’、‘月均代发金额’、‘最多代发金额’、‘月初AUM’、‘月均AUM’做为特征列,而‘是否流失’做为标签列;

拆分:将数据集进行拆分,一部分数据用来训练模型,另一部分用来验证经过训练的模型效果如何;

随机森林:本研究用分类算法节点中选择 随机森林算法 进行预测客户流失的模型构建。

数据挖掘目标不在于数据采集策略 数据挖掘的目标定义_数据挖掘_03

4.训练&预测

训练:训练节点的输入分为两部分,左边为算法节点,右边为训练数据集,模型通过对训练集数据中特征列的数据进行学习,并根据标签列的数据,确认具有何种特征的数据可能是流失客户,进而使模型获得能够识别流失客户的能力;

预测:预测节点的输入分为两部分,左边为训练好的模型,右边为测试数据集,模型运用识别流失客户的能力,对测试集中的特征列数据进行处理,并获得是否为流失客户的标记,这里的标记是数据模型给出的结论,并非测试集中标签列的数据。

数据挖掘目标不在于数据采集策略 数据挖掘的目标定义_数据模型_04

5.结果评估

评估:通过对比数据模型预测结果与测试集数据之间的差异,可以评价模型的效果。

数据挖掘目标不在于数据采集策略 数据挖掘的目标定义_数据挖掘目标不在于数据采集策略_05

最终输出评价结果为:

数据挖掘目标不在于数据采集策略 数据挖掘的目标定义_数据模型_06

图:Smartbi银行客户流失预测结果

从上图可以看到这个数据模型的准确率高达95%。相信看过这个例子之后,帮助很多人了解了数据挖掘的目的,有什么意义。以及如何做数据挖掘。当然,如果想要深入了解的话,这个例子并不能很好的体现出数据挖掘的价值,可以到Smartbi官网了解更多关于数据挖掘的知识及使用。