数据挖掘目标不在于数据采集策略数据挖掘的目标定义

关注 jkfox

数据挖掘目标不在于数据采集策略数据挖掘的目标定义

转载

jkfox 2023-11-23 13:36:49

文章标签 数据挖掘目标不在于数据采集策略数据挖掘大数据数据数据模型 文章分类 数据挖掘人工智能

很多人估计还不清楚数据挖掘的目的是什么，其实数据挖掘的两大目的就是是预测和描述数据，其中前者的计算机建模及实现过程通常被称为监督学习(supervised learning) ，后者的则通常被称为无监督学习(supervised learning) 。往更细分，数据挖掘的目标可以划分为以下这些：
预测数据
预测性挖掘任务对当前数据进行推断，以做出预测。预测主要包括分类——将样本划分到几个预定义类之一；回归——将样本映射到一个真实值预测变量上。也就是说给了一定的目标属性，让去预测目标的另外一特定属性。如果该属性是离散的，通常称之为“分类”，而如果目标属性是一个连续的值，则称之为“回归”。
描述数据
描述性挖掘任务是描述数据库中数据的一般性质。描述主要包括聚类——将样本划分为不同类(无预定义类)，关联规则发现——发现数据集中不同特征的相关性。这是指找出数据间潜在的联系模式。其他的描述任务还有异常检测，其过程类似于聚类的反过程，聚类将相似的数据聚合在一起，而异常检测将离群太远的点给剔除出来。

说起来可能很复杂，不容易理解，为了帮助大家了解数据挖掘是如何进行的，如何对预测性挖掘任务对当前数据进行推断，以做出预测。我引用Smartbi的数据挖掘平台（Smartbi Mining）快速搭建一个银行客户流失的预测的过程。

1.新建实验

Smartbi数据挖掘的默认界面为‘实验管理’界面，该界面可以进行‘新建实验’：

新建方式1：在文件夹右键菜单‘新建’中单击‘实验’；

新建方式2：单击‘新建实验’。

数据挖掘目标不在于数据采集策略数据挖掘的目标定义_数据

2.选择数据源

根据原始数据存放的方式在选择数据源节点，将数据源节点拖拽至画布区域，并在参数面板上进行数据源信息的设置。

数据挖掘目标不在于数据采集策略数据挖掘的目标定义_大数据_02

3.数据模型搭建

特征选择：将‘卡等级’、‘是否为代发客户’、‘月均代发金额’、‘最多代发金额’、‘月初AUM’、‘月均AUM’做为特征列，而‘是否流失’做为标签列；

拆分：将数据集进行拆分，一部分数据用来训练模型，另一部分用来验证经过训练的模型效果如何；

随机森林：本研究用分类算法节点中选择随机森林算法进行预测客户流失的模型构建。

数据挖掘目标不在于数据采集策略数据挖掘的目标定义_数据挖掘_03

4.训练&预测

训练：训练节点的输入分为两部分，左边为算法节点，右边为训练数据集，模型通过对训练集数据中特征列的数据进行学习，并根据标签列的数据，确认具有何种特征的数据可能是流失客户，进而使模型获得能够识别流失客户的能力；

预测：预测节点的输入分为两部分，左边为训练好的模型，右边为测试数据集，模型运用识别流失客户的能力，对测试集中的特征列数据进行处理，并获得是否为流失客户的标记，这里的标记是数据模型给出的结论，并非测试集中标签列的数据。

数据挖掘目标不在于数据采集策略数据挖掘的目标定义_数据模型_04

5.结果评估

评估：通过对比数据模型预测结果与测试集数据之间的差异，可以评价模型的效果。

数据挖掘目标不在于数据采集策略数据挖掘的目标定义_数据挖掘目标不在于数据采集策略_05

最终输出评价结果为：

数据挖掘目标不在于数据采集策略数据挖掘的目标定义_数据模型_06

图：Smartbi银行客户流失预测结果

从上图可以看到这个数据模型的准确率高达95%。相信看过这个例子之后，帮助很多人了解了数据挖掘的目的，有什么意义。以及如何做数据挖掘。当然，如果想要深入了解的话，这个例子并不能很好的体现出数据挖掘的价值，可以到Smartbi官网了解更多关于数据挖掘的知识及使用。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：Java中R是什么类型 java arr是什么意思

下一篇：pythontkinter清空窗口指定组件 tkinter清空界面布局

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册