数据挖掘步骤:
1、商业理解
数据挖掘的目的是推动业务发展,所以进行数据挖掘之前先从商业的角度理解项目需求及目的,再对数据挖掘目标进行定义。
2、数据理解
尝试收集部分数据,对数据进行探索,包括数据描述,数据质量验证等。
3、数据准备
进行数据收集,并进行数据清洗,数据集成等操作,完成数据挖掘前的准备工作
4、模型建立
选择和应用各种数据挖掘模型,并对模型进行优化,确定模型是否实现了预定的商业目标
5、模型评估
对模型进行评估,并检查模型构建的每一个步骤,确认,模型是否实现了预定的目标
6、上线发布
模型的作用是找到数据中的金矿,也就是我们所说的知识,获得的知识需要转化成用户可以使用的方式,呈现的方式可以是一份报告,也可以是一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的维护和监控就变得异常重要
数据挖掘十大算法
1、C4.5
决策树的算法,优点在于在构建过程中就进行了剪枝,并可以处理连续的属性,也可以对不完整的属性进行处理。
2、朴素贝叶斯(Naive Bayes)
基于概率论的算法,对未知物体进行分类,对于给出的未知物体出现的情况下,各类别物体出现的概率,谁的概率最大,该物体就属于哪个分类
3、SVM
支持向量机
4、KNN
K-Nearest Neighbor K最近邻算法,所谓K近邻,每个样本都可以用它最近的K歌邻居代表,如果一个样本,他的K个邻居都属于一类,那该样本也属于这一个分类
5、Adbaoost
再训练过程中建立联合的分类模型,,它可以将多个弱的分类聚合成一个强的分类
6、CART
分类和回归树,classifiction and regression trees,一个分类树,一颗回归树
7、Apriori
挖掘关联规则的算法,它是通过挖掘频繁项集来揭示物品之间的关联关系,被频繁应用于商业挖掘和网络安全领域。频繁项集是指经常一起出现的物品的集合,关联规则预示着两种物品之间可能存在着很强的关系
8、K-means
聚类算法,最总我想把物品分成K类,假设每个类别里都有一个中心点,既意见领袖,它是这个类别的核心。现在我有一个新点需要归类,这个时候计算这个新点离哪个核心最近就属于哪一类。
9、EM
最大期望算法,求参数的最大似然估计的算法。假设我们想要评估参数A和参数B,在开始状态下二者都是未知的,并且知道A就可以知道B,反之亦然。可以考虑先赋值A一个初值,以此得到B值,再通过B值重新估算A值,直到收敛为止。
10、pagerank
起源于论文影响力,一篇论文被引用的越多,代表论文的影响力越强,这个被应用到网页权重计算中:当这个网页链出的越多,证明这个网页“参考文献”越多,当这个网页链入的越多,证明被引用的越多,基于这个原理,我们可以得到网站权重的划分
数据挖掘中的数学基础
1、概率论与数理统计
2、线性代数
3、图论
4、最优化方法
体会:挖掘算法的底层原理还是可以用很直白的话语解释清楚,只是在实现过程中可能基础不扎实导致应用不灵活。
商品之间的关联规则:Apriori算法,Apriori就是挖掘两个物品之间的关联关系的