数据挖掘方法论就是员工执行流程。

知识发掘(KDD)的步骤:

1.Attribute selection 先把字段选择出来。

2.Data cleansing 把数据进行清洗

3.Attribute emrichment:对字段进行扩充,把字段进行处理计算然后得到新字段。(特征工程就是其中的一种)。

4.Data coding:数据重编码,便于更合适的数据挖掘

5.Data mining:数据挖掘

6.Reporting:把数据挖掘的结果进行表现,可能用图表,可能用表格。

前4个阶段是Input,输入的一个过程,第5个阶段是数据挖掘整理的步骤,的最后一个阶段是output

例子:一家杂志公司贩卖五种杂志,汽车杂志,房屋杂志,运动杂志,音乐杂志,搞笑杂志

数据挖掘的任务找到有趣的客户特征:

Profile,轮廓。喜欢汽车杂志会有什么特征的。

同时喜欢汽车杂志和喜欢漫画书的人,有什么特征

应用知识挖掘的步骤来完成这个例子。

1.Attribute selection字段选择:

寻找有关的字段。

编号,名字,地址,购买日期,购买杂志类型

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_字段

2.data cleansing数据清洗

最后一行的数据好像有点问题。Jonson名字好像被打错了。住在同一个地方。我们推测jonson和johnson是同一个人。于是我们对订单进行查询。确实他们是同一个对象。

搬家的情况。

技术:pattern Recognition Algorithms 模型对比。寻找可能的错误

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_数据分析_02

数据里的日期是1901年一月一号。肯定是错误的,店都没开,因为数据库不允许有空值,所以会出现预设值。

Lack of domain consistency 缺乏领域的数据

不如直接预设空值。

要确定这个字段的限制,比如店是在1902年开的,就一定不会出现010101的数据

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_字段_03

3.attribute enrichme扩充数据

看看字段有没有意义。

顾客编码:不是分析性数据,

顾客姓名:关联不大,

住址:作业型,不能作为分析型字段,要给他转变为范围字段,区域,北方南方,城市。就可以使用了。

购买杂志的时间:

向其他部门HR寻求数据:

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_大数据_04

再寻求(扩展)有效字段:

生日:可以转化为年龄,看看年龄段对购买杂志有没有意向。

收入:收入高低,还不错,可以考虑的分析字段

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_数据分析_05

扩展的字段要能够很容易的整合到数据里。

4数据编码

看看要不要保留字段,比如姓名可以移除。

主键记得先保留

对空值进行处理,可以删掉信息量不够的数据,比如king,信息不全,可以筛除。

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_数据挖掘_06

数据挖掘对cup消耗很高,所以必须要在一张表内。要求表格join起来。

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_数据挖掘的分析方法主要有哪些_07

结果:

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_数据挖掘_08

继续编码,把生日,地址这种作业型的字段转化为分析型的字段,年龄和地区

把收入的格式转变为数字

分类变量转化为哑变量。0,1

购买日期转变为与1990年的差值(单位月份)。(损失了一部分信息。)

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_数据挖掘的分析方法主要有哪些_09

转化规则:

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_数据挖掘_10

如何编码会影响你最后找到特征的形态

编码没有固定的程序,与个人经验有关。要不断重复的更改编码,找到最好的结果。

回头看看目的:

编码的最后一个程序:回头看看目的进行摊平运算(合并),尽量保证一个主键只有一个数据(逆透视)。

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_数据挖掘的分析方法主要有哪些_11

然后就可行进行5数据挖掘和6.报告输出了

总结:

前四步进行构造数据仓库(数据预处理)

明确老板的需求——》字段选择——》数据清洗——》字段扩充(外部,其他部门)——》数据编码——》数据挖掘——》报告——》回头重复尝试——》行动

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_大数据_12

数据预处理非常重要。决定数据挖掘是否有效,有高质量的数据,才有高质量的数据挖掘结果。

时间消耗最多百分之60-百分之80

数据挖掘技术的产业标准处理流程CRISP-DM&SEMMA:

因为上面的步骤过于繁琐,没有标准化,所以就商业上就提出了一个标准CRISP-DM(cross industry standard process for data mining)(翻译:跨产业的数据挖掘标准流程)。IBM提出的简化的过程

SEMMA(sample(数据要够取样),explore数据探索,modify单位的扩充,model建立数据挖掘模型,assess做评估)直接与数据处理相关。Sas提出的方法论

本质上是一模一样的

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_数据挖掘_13

商业理解,找到题目——》了解数据是否足够,不够就要回头该题目——》数据的预处理(就是知识挖掘处理的步骤)——》机器学习的算法建数学挖掘模型——》报表呈现(结果良好的情况)(不行就重复)——》活动进行

基本上是一样的

数据挖掘的分析方法主要有哪些 数据分析挖掘方法论_大数据_14

取样数据——》数据探索——》字段选择和转换——》建模——》结果——》取样数据

SEMMA表现的是数据处理部分

SEMMA的准备阶段是PreKDD在之前就做好了