数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等

2.1数据挖掘的发展历史

.....

2.2数据分析与数据挖掘的主要区别

相对于传统的统计分析技术,数据挖掘有如下特点:

  • 数据挖掘擅长处理大数据(几十几百万行或者更多的数据)
  • 数据挖掘在实践应用中一般都会借助数据挖掘工具
  • 数据分析应用的趋势是用大型数据库中抓取数据

数据挖掘是统计分析技术的延伸和发展

数据挖掘和统计分析的差别:

  统计分析的基础之一就是概率论,对数据进行统计分析需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性,数据挖掘应用中,不需要对数据发布做任何假设,数据挖掘中的算法会自动寻找变量间的关系,相对于海量数据数据挖掘有明显的应用优势

  统计分析在预测中常常表现为一个或者一组函数关系式,数据挖掘在预测应用中重点在于预测结果,很多时候不会从结果中产生明确的函数关系式,有时候不知道那些变量起作用,如何起作用

2.3数据挖掘的主要成熟技术以及在数据化运营中的主要应用

2.3.1决策树

  一种非常成熟、普遍采用的数据挖掘技术,建模过程类似树的成长过程,分析的数据样本先是集成为一个树根,经过层层分支,最终形成N个节点,每个节点代表一个结论

最常用的3种决策树算法分别是

  • CHAID(卡方自动相互关系检测):依据局部最优原则,利用卡方检验来选择对应变量最有影响的自变量,应用前提是因变量为类别型变量
  • CART(分类和回归树):依据总体最优原则,利用基尼系数等不纯度的指标
  • ID3(迭代二分器,包括C4.5\C5.0):最大特点是自变量的挑选标准是基于信息增益的度量选择具有最高信息增益的属性作为结点分裂(分割)属性,其结果就是对分割后的结点进行分类所需的信息量最小(纯度划分度的思想)

CHAID和CART的区别:

  • CHAID局部最优原则,结点之间互不相干,一个结点确认后,下面生长的过程完全在结点内进行;CART依据总体最优原则,先让树尽可能的生长,然后再回过头来对树进行修剪(非常类似统计分析中的回归算法的反向选择)
  • CHAID利用卡方检验来选择对应变量最有影响的自变量;CART利用基尼系数等
  • CHAID是多分的,同一变量只能使用一次;CART是二分的,每个结点只能分出两枝,同一个自变量可以反复使用多次
  • 自变量存在数据缺失,CART会寻找一个替代数据(填充)缺失值,CHAID是把缺失值作为单独的一类数值

  C4.5可以理解为ID3的发展版,主要区别在于C4.5采用信息增益率代替了ID3中的信息增益度量(信息增益度量有个缺点,倾向于选择具有最大值的属性)

  决策树技术在数据化运营的主要用途体现在:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景,决策树甚至可以作为其他建模技术前期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量。

2.3.2神经网络

  神经网络是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表;简单来讲,神经网络就是通过输入多个非线性模型以及不同模型之间的加权互联(加权的过程在隐蔽层完成),最终得到一个输出模型。其中隐蔽层所包含的就是非线性函数。

  目前最主流的神经网络算法是反馈传播,该算法在多层前向型神经网络上进行学习,而多层前向型神经网络又是由一个输入层、一个或者多个隐蔽层以及一个输出层组成,神经网络的典型结构如图:

大数据与数据挖掘 大数据与数据挖掘特点_数据挖掘

 

神经网络的优缺点:

  优点:大规模并行结构和信息的并行处理,具有良好的自适应性、自组织性和高容错性,并且具有较强的学习、记忆和识别功能。

  缺点:其知识和结果的不可解释性(无法知道隐蔽层里的非线性函数到底是如何处理自变量)

在利用神经网络技术建模的过程中,有以下5个因素对模型结果有着重大影响

  • 层数
  • 每层中输入变量的数量
  • 联系的种类
  • 联系的程度
  • 转换函数(激活函数或者挤压函数)

神经网络技术在数据化运营中的主要用途体现在:作为分类、预测问题的重要技术支持,在用户划分、行为预测、营销响应等方面有应用前景

2.3.3回归

回归分析包括线性回归,这里主要是指多元线性回归和逻辑斯蒂回归(数据化运营用的最多的包括响应预测、分类划分等)

多元线性回归主要描述一个因变量如何随一批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映

因变量的变化包括两部分:系统性变化与随机变化,其中系统性变化是由自变量引起的(自变量可以解释),随机变化是不能由自变量解释,通常也称作残值

在用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小

多元线性回归方程的参数估计,是基于下列假设的:

  •   输入变量是确定的变量,不是随机变量,而且输入的变量间无线性相关,即无共线性
  •   随机误差的期望值总和为零,即随机误差与自变量不相关
  •   随机误差呈现正态分布

如果不满足上述假设,就不能用最小二乘法进行回归系数估算了

逻辑斯蒂回归可以很好的回答预测、分类等数据化运营常见问题,凡是预测二选一事件的可能性(买还是不买,流失还是不流失)都可以使用

逻辑斯蒂回归预测的因变量介于0和1之间的概率,如果对这个概率进行换算,就可以用线性公式描述因变量与自变量的关系了,具体公式如下:

大数据与数据挖掘 大数据与数据挖掘特点_大数据与数据挖掘_02

逻辑斯蒂回归采用最大似然法的参数估计方法,原理是找到一个参数,可以让样本数据包含的观察值被观察到的可能性最大,寻找最大可能行的方法需要反复计算,优点是在大样本数据中参数的估值稳定、偏差小、估值方差小

2.3.4关联规则

关联规则数据挖掘的主要目的是找出数据集中的频繁模式,即多次重复出现的模式和并发的关系

应用关联规则最经典的案例就是购物篮分析,通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而制定针对性的营销策略

例子:

    婴儿尿不湿-->啤酒【支持度=10%,置信度=70%】

    支持度=10%:有10%的顾客同时购买了婴儿尿不湿和啤酒

    置信度=70%:在所有的购买婴儿尿不湿的顾客中,有70%的顾客购买了啤酒

 支持度:规则X->Y的支持度是指事物全集中包含X交Y的事物百分比,支持度主要衡量规则的有用性,支持度太小说明相应规则只是偶然事件

 置信度:规则X->Y的置信度是指既包含X又包含了Y的事物数量占所有包含了X的事物数量的百分比,置信度主要衡量确定性(可预测性),置信度太低,从X很难可靠推断Y

在众多关联规则数据挖掘算法中,最著名的就是Apriori算法,具体步骤:

  • 生成所有的频繁项目集(支持度高于最小支持度阀值min-sup的项目集)
  • 从频繁项目集中生成所有的可信关联规则(置信度大于最小置信度阀值min-conf的规则)

2.3.5聚类

把群体按照相似性和想异性划分不同群组

聚类分析分为划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等,前两种方法最常用。

划分的方法

  给定m个对象数据集,以及希望生成的细分群体数量K后,即可采用这种方法把这些分成K组(K<=m),使得每个组对象是相似的,而组间是相异的

最常用的划分方法是K-Means方法,具体原理是:

  •   首先,随机选择K个对象,并且所选的每个对象都代表一个组的初始值或者初始的组中心值
  •   对剩余的每个对象,根据其与各个组初始均值的距离,将它们分配给最近的(最相似)小组
  •   然后,重新计算每个小组新的均值
  •   这个过程不断重复,直到所有的对象在K组发布中都找到离自己最近的组

层次的方法:

  指依次让最相似的数据对象两两合并,这样不断的合并,最后就形成了一颗聚类树

聚类分析主要用途:

  • 直接作为模型对观察对象进行群体划分,为业务方的精细化运营提供具体的细分依据和相应的运营方案建议
  • 数据处理阶段用作数据探索的工具,包括发现离群点、独立点,数据降维的手段和方法

2.3.6贝叶斯分类方法

  主要用来预测类成员间的关系的可能性

大数据与数据挖掘 大数据与数据挖掘特点_数据_03

 

2.3.7支持向量机

支持向量机以结构风险最小为原则

在线性的情况下,就在原空间寻找两类样本的最优分类超平面

在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上

支持向量机的基本概念如下:

大数据与数据挖掘 大数据与数据挖掘特点_数据_04

2.3.8主成分分析

主成分分析通过线性组合将多个原始变量合并成若干个主成分,这样每个主成分都变成了原始变量的线性组合

主成分分析的主要步骤:

  • 通常要先进行各变量的标准化工作,标准化的目的是把数据按照比例进行缩放。使之落入一个小区间范围,从而让不同的变量经过标准化处理后可以有平等的分析和比较基础
  • 选择协方差阵或者相关阵的计算特征根及对应的特征向量
  • 计算方差贡献率,并根据方差贡献率的阀值选取合适的主成分个数
  • 根据主成分载荷的大小对选择的主成分进行命名
  • 根据主成分载荷计算各个主成分的得分

2.3.9假设检验

假设检验的基本原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否发生

2.4互联网行业数据挖掘应用的特点

  • 数据的海量性
  • 数据分析(挖掘)的周期短
  • 数据分析(挖掘)成果的时效明显变短
  • 技术更新更快