数据挖掘的分析方法主要有哪些数据分析挖掘方法论

转载

mob6454cc67e023 2023-06-01 16:13:14

文章标签 数据挖掘的分析方法主要有哪些数据挖掘大数据数据分析字段 文章分类 数据挖掘人工智能

数据挖掘方法论就是员工执行流程。

知识发掘（KDD）的步骤：

1.Attribute selection 先把字段选择出来。

2.Data cleansing 把数据进行清洗

3.Attribute emrichment：对字段进行扩充，把字段进行处理计算然后得到新字段。（特征工程就是其中的一种）。

4.Data coding：数据重编码，便于更合适的数据挖掘

5.Data mining：数据挖掘

6.Reporting：把数据挖掘的结果进行表现，可能用图表，可能用表格。

前4个阶段是Input，输入的一个过程，第5个阶段是数据挖掘整理的步骤，的最后一个阶段是output

例子：一家杂志公司贩卖五种杂志，汽车杂志，房屋杂志，运动杂志，音乐杂志，搞笑杂志

数据挖掘的任务找到有趣的客户特征：

Profile，轮廓。喜欢汽车杂志会有什么特征的。

同时喜欢汽车杂志和喜欢漫画书的人，有什么特征

应用知识挖掘的步骤来完成这个例子。

1.Attribute selection字段选择：

寻找有关的字段。

编号，名字，地址，购买日期，购买杂志类型

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_字段

2.data cleansing数据清洗

最后一行的数据好像有点问题。Jonson名字好像被打错了。住在同一个地方。我们推测jonson和johnson是同一个人。于是我们对订单进行查询。确实他们是同一个对象。

搬家的情况。

技术：pattern Recognition Algorithms 模型对比。寻找可能的错误

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_数据分析_02

数据里的日期是1901年一月一号。肯定是错误的，店都没开，因为数据库不允许有空值，所以会出现预设值。

Lack of domain consistency 缺乏领域的数据

不如直接预设空值。

要确定这个字段的限制，比如店是在1902年开的，就一定不会出现010101的数据

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_字段_03

3.attribute enrichme扩充数据

看看字段有没有意义。

顾客编码：不是分析性数据，

顾客姓名：关联不大，

住址：作业型，不能作为分析型字段，要给他转变为范围字段，区域，北方南方，城市。就可以使用了。

购买杂志的时间：

向其他部门HR寻求数据：

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_大数据_04

再寻求（扩展）有效字段：

生日：可以转化为年龄，看看年龄段对购买杂志有没有意向。

收入：收入高低，还不错，可以考虑的分析字段

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_数据分析_05

扩展的字段要能够很容易的整合到数据里。

4数据编码

看看要不要保留字段，比如姓名可以移除。

主键记得先保留

对空值进行处理，可以删掉信息量不够的数据，比如king，信息不全，可以筛除。

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_数据挖掘_06

数据挖掘对cup消耗很高，所以必须要在一张表内。要求表格join起来。

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_数据挖掘的分析方法主要有哪些_07

结果：

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_数据挖掘_08

继续编码，把生日，地址这种作业型的字段转化为分析型的字段，年龄和地区

把收入的格式转变为数字

分类变量转化为哑变量。0，1

购买日期转变为与1990年的差值（单位月份）。（损失了一部分信息。）

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_数据挖掘的分析方法主要有哪些_09

转化规则：

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_数据挖掘_10

如何编码会影响你最后找到特征的形态

编码没有固定的程序，与个人经验有关。要不断重复的更改编码，找到最好的结果。

回头看看目的：

编码的最后一个程序：回头看看目的进行摊平运算（合并），尽量保证一个主键只有一个数据（逆透视）。

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_数据挖掘的分析方法主要有哪些_11

然后就可行进行5数据挖掘和6.报告输出了

总结：

前四步进行构造数据仓库（数据预处理）

明确老板的需求——》字段选择——》数据清洗——》字段扩充（外部，其他部门）——》数据编码——》数据挖掘——》报告——》回头重复尝试——》行动

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_大数据_12

数据预处理非常重要。决定数据挖掘是否有效，有高质量的数据，才有高质量的数据挖掘结果。

时间消耗最多百分之60-百分之80

数据挖掘技术的产业标准处理流程CRISP-DM&SEMMA：

因为上面的步骤过于繁琐，没有标准化，所以就商业上就提出了一个标准CRISP-DM（cross industry standard process for data mining）（翻译：跨产业的数据挖掘标准流程）。IBM提出的简化的过程

SEMMA（sample（数据要够取样），explore数据探索，modify单位的扩充，model建立数据挖掘模型，assess做评估）直接与数据处理相关。Sas提出的方法论

本质上是一模一样的

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_数据挖掘_13

商业理解，找到题目——》了解数据是否足够，不够就要回头该题目——》数据的预处理（就是知识挖掘处理的步骤）——》机器学习的算法建数学挖掘模型——》报表呈现（结果良好的情况）（不行就重复）——》活动进行

基本上是一样的

数据挖掘的分析方法主要有哪些数据分析挖掘方法论_大数据_14

取样数据——》数据探索——》字段选择和转换——》建模——》结果——》取样数据

SEMMA表现的是数据处理部分

SEMMA的准备阶段是PreKDD在之前就做好了

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：批量校验数据 java java批量处理数据进度条

下一篇：java进程内存超过xmm java进程内存占用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论

51CTO博客

数据挖掘的分析方法主要有哪些数据分析挖掘方法论

数据挖掘的分析方法主要有哪些数据分析挖掘方法论