我们这就是有 企业挖掘中最常用的 《流失用户分析》来说明:

数据挖掘流程:
1. 定义主题 : 天啊,我在干什么!( 此模块绝大多数主观意识上完成,有少量客观验证)
  1.1 明确主题用户在各用户群中的分布 - 流失用户在各用户群中比例
    不同客户群的流失程度如:某渠道,某软件版本,页面布局,功能等主观上去分析。
    尽量把影响流失比较大的因素详细罗列出来 如: 概率分布,页面布局变化影响等
  1.2 明确主题用户特征 -  流失用户特征
     对流失用户影响比较大的字段如:金额,软件版本(缺少最需要的功能),客服对问题的处理的时间
 

2. 数据选择 : 什么样的选民,选出什么样的总统
   在此模块中有个比较难把握的地方: 维度越高越能准确的定义数据,但也会越复杂度 。
   你大概不会希望花3天分析出2天前的流失用户吧!! :)
   2.1 分区收集
       在用户流失分析中,若采集时间过长,可能在流失判断出来时客户已然流失;若采集时间过于紧密或者实时采集则需要考虑运营商现有系统的支撑能力。因此对数据采集时间间隔的设置显得尤为重要。
   2.2 减少数据噪音
   2.3 剔除部分冗余数据
       此间要注意的是在客户流失分析上,从数据仓库中采集数据的主要目的是调查客户信息的变化情况。一些不必要的数据就去除掉吧


3. 分析数据 : 热身,很重要!
   3.1 数据抽样
       多说了,在这信息爆炸的时代,别说你把上百TB的数据放到应用分析库中去!
   3.2 数据转换
       比如时间方面:可以把上午转换为 1 ,中午转换为 2 等等.便于分析
   3.3 缺损数据处理
   3.4 样本生成
        建模样本:为下个阶段准备
        测试样本: 对模型进行修正和检验

4. 模型建立 : 找个合得来的过这一辈子吧!
  对数据进行分析并利用各种数据挖掘技术和方法在多个可供选择的模型中找出最佳模型,这个过程是一个循环迭代的过程.
  建立模型通常由数据分析专家配合业务专家来完成
  4.1  常用的流失分析模型主要有  决策树 / 贝叶斯网络 / 神经网络等


5. 模型的评估与检验 : 开花!

6. 应用模型 : 终于,结出好果(结果)!




$>流失分析中需要注意的问题
 
>>过度抽样
      国内电信企业每月的客户流失率一般在1%~3%左右,如果直接采用某种模型(比如决策树、人工神经网络等)可能会因为数据概率太小而导致模型的失效
      因此我们需要加大流失客户在总样本中的比例,但是这种过度抽样必须谨慎小心,要充分考虑它的负面效应
 
>> 模型的有效性
   预测出结果,但用户已经流失 ,主要要关注采样时间跨度问题
 
>> 模型的流失后分析
  数据挖掘在客户流失管理中的重要应用不仅仅应包括对客户流 失的提前预警,还应包括客户流失后的问题分析。按照不同的客户信息纬度,查找最容易流失的客户群,同业务部门人员配合,辅以相关调查,力求发现客户流失的 症结所在。然而,这一部分往往由于过度专注于挖掘模型本身的拟合度而忽略了流失管理的实际价值所在。


谢谢 同事 吴 的指导,这他的原话 转出来供大家学习

0. 我觉得做bi和技术最大的一点差别就是
    bi是数据导向,需求的优先级要低于数据

1. 没数据的话,需求就没戏了  
2. 技术是需求导向,只要有需求,技术基本上都能做出来
3. 数据的加载、加工、清洗,叫做etl,其实和你现在做的事情很像
4. etl是挖掘里非常重要的一部分







参考: 数据挖掘在电信客户流失分析中的应用