数据挖掘方法论就是员工执行流程。
知识发掘(KDD)的步骤:
1.Attribute selection 先把字段选择出来。
2.Data cleansing 把数据进行清洗
3.Attribute emrichment:对字段进行扩充,把字段进行处理计算然后得到新字段。(特征工程就是其中的一种)。
4.Data coding:数据重编码,便于更合适的数据挖掘
5.Data mining:数据挖掘
6.Reporting:把数据挖掘的结果进行表现,可能用图表,可能用表格。
前4个阶段是Input,输入的一个过程,第5个阶段是数据挖掘整理的步骤,的最后一个阶段是output
例子:一家杂志公司贩卖五种杂志,汽车杂志,房屋杂志,运动杂志,音乐杂志,搞笑杂志
数据挖掘的任务找到有趣的客户特征:
Profile,轮廓。喜欢汽车杂志会有什么特征的。
同时喜欢汽车杂志和喜欢漫画书的人,有什么特征
应用知识挖掘的步骤来完成这个例子。
1.Attribute selection字段选择:
寻找有关的字段。
编号,名字,地址,购买日期,购买杂志类型
2.data cleansing数据清洗
最后一行的数据好像有点问题。Jonson名字好像被打错了。住在同一个地方。我们推测jonson和johnson是同一个人。于是我们对订单进行查询。确实他们是同一个对象。
搬家的情况。
技术:pattern Recognition Algorithms 模型对比。寻找可能的错误
数据里的日期是1901年一月一号。肯定是错误的,店都没开,因为数据库不允许有空值,所以会出现预设值。
Lack of domain consistency 缺乏领域的数据
不如直接预设空值。
要确定这个字段的限制,比如店是在1902年开的,就一定不会出现010101的数据
3.attribute enrichme扩充数据
看看字段有没有意义。
顾客编码:不是分析性数据,
顾客姓名:关联不大,
住址:作业型,不能作为分析型字段,要给他转变为范围字段,区域,北方南方,城市。就可以使用了。
购买杂志的时间:
向其他部门HR寻求数据:
再寻求(扩展)有效字段:
生日:可以转化为年龄,看看年龄段对购买杂志有没有意向。
收入:收入高低,还不错,可以考虑的分析字段
扩展的字段要能够很容易的整合到数据里。
4数据编码
看看要不要保留字段,比如姓名可以移除。
主键记得先保留
对空值进行处理,可以删掉信息量不够的数据,比如king,信息不全,可以筛除。
数据挖掘对cup消耗很高,所以必须要在一张表内。要求表格join起来。
结果:
继续编码,把生日,地址这种作业型的字段转化为分析型的字段,年龄和地区
把收入的格式转变为数字
分类变量转化为哑变量。0,1
购买日期转变为与1990年的差值(单位月份)。(损失了一部分信息。)
转化规则:
如何编码会影响你最后找到特征的形态
编码没有固定的程序,与个人经验有关。要不断重复的更改编码,找到最好的结果。
回头看看目的:
编码的最后一个程序:回头看看目的进行摊平运算(合并),尽量保证一个主键只有一个数据(逆透视)。
然后就可行进行5数据挖掘和6.报告输出了
总结:
前四步进行构造数据仓库(数据预处理)
明确老板的需求——》字段选择——》数据清洗——》字段扩充(外部,其他部门)——》数据编码——》数据挖掘——》报告——》回头重复尝试——》行动
数据预处理非常重要。决定数据挖掘是否有效,有高质量的数据,才有高质量的数据挖掘结果。
时间消耗最多百分之60-百分之80
数据挖掘技术的产业标准处理流程CRISP-DM&SEMMA:
因为上面的步骤过于繁琐,没有标准化,所以就商业上就提出了一个标准CRISP-DM(cross industry standard process for data mining)(翻译:跨产业的数据挖掘标准流程)。IBM提出的简化的过程
SEMMA(sample(数据要够取样),explore数据探索,modify单位的扩充,model建立数据挖掘模型,assess做评估)直接与数据处理相关。Sas提出的方法论
本质上是一模一样的
商业理解,找到题目——》了解数据是否足够,不够就要回头该题目——》数据的预处理(就是知识挖掘处理的步骤)——》机器学习的算法建数学挖掘模型——》报表呈现(结果良好的情况)(不行就重复)——》活动进行
基本上是一样的
取样数据——》数据探索——》字段选择和转换——》建模——》结果——》取样数据
SEMMA表现的是数据处理部分
SEMMA的准备阶段是PreKDD在之前就做好了