数据挖掘步骤:

1、商业理解

数据挖掘的目的是推动业务发展,所以进行数据挖掘之前先从商业的角度理解项目需求及目的,再对数据挖掘目标进行定义。

2、数据理解

尝试收集部分数据,对数据进行探索,包括数据描述,数据质量验证等。

3、数据准备

进行数据收集,并进行数据清洗,数据集成等操作,完成数据挖掘前的准备工作

4、模型建立

选择和应用各种数据挖掘模型,并对模型进行优化,确定模型是否实现了预定的商业目标

5、模型评估

对模型进行评估,并检查模型构建的每一个步骤,确认,模型是否实现了预定的目标

6、上线发布

模型的作用是找到数据中的金矿,也就是我们所说的知识,获得的知识需要转化成用户可以使用的方式,呈现的方式可以是一份报告,也可以是一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的维护和监控就变得异常重要

 

数据挖掘十大算法

1、C4.5

决策树的算法,优点在于在构建过程中就进行了剪枝,并可以处理连续的属性,也可以对不完整的属性进行处理。

2、朴素贝叶斯(Naive Bayes)

基于概率论的算法,对未知物体进行分类,对于给出的未知物体出现的情况下,各类别物体出现的概率,谁的概率最大,该物体就属于哪个分类

3、SVM

支持向量机

4、KNN

K-Nearest Neighbor  K最近邻算法,所谓K近邻,每个样本都可以用它最近的K歌邻居代表,如果一个样本,他的K个邻居都属于一类,那该样本也属于这一个分类

5、Adbaoost

再训练过程中建立联合的分类模型,,它可以将多个弱的分类聚合成一个强的分类

6、CART

分类和回归树,classifiction and regression trees,一个分类树,一颗回归树

7、Apriori

挖掘关联规则的算法,它是通过挖掘频繁项集来揭示物品之间的关联关系,被频繁应用于商业挖掘和网络安全领域。频繁项集是指经常一起出现的物品的集合,关联规则预示着两种物品之间可能存在着很强的关系

8、K-means

聚类算法,最总我想把物品分成K类,假设每个类别里都有一个中心点,既意见领袖,它是这个类别的核心。现在我有一个新点需要归类,这个时候计算这个新点离哪个核心最近就属于哪一类。

9、EM

最大期望算法,求参数的最大似然估计的算法。假设我们想要评估参数A和参数B,在开始状态下二者都是未知的,并且知道A就可以知道B,反之亦然。可以考虑先赋值A一个初值,以此得到B值,再通过B值重新估算A值,直到收敛为止。

10、pagerank

起源于论文影响力,一篇论文被引用的越多,代表论文的影响力越强,这个被应用到网页权重计算中:当这个网页链出的越多,证明这个网页“参考文献”越多,当这个网页链入的越多,证明被引用的越多,基于这个原理,我们可以得到网站权重的划分

 

数据挖掘中的数学基础

1、概率论与数理统计

2、线性代数

3、图论

4、最优化方法

 

 

体会:挖掘算法的底层原理还是可以用很直白的话语解释清楚,只是在实现过程中可能基础不扎实导致应用不灵活。

 

商品之间的关联规则:Apriori算法,Apriori就是挖掘两个物品之间的关联关系的