chart 数据挖掘lift 数据挖掘路线

转载

cnolnic 2023-07-12 09:40:29

文章标签 chart 数据挖掘lift 数据挖掘数据关联规则 文章分类 数据挖掘人工智能

数据挖掘步骤：

1、商业理解

数据挖掘的目的是推动业务发展，所以进行数据挖掘之前先从商业的角度理解项目需求及目的，再对数据挖掘目标进行定义。

2、数据理解

尝试收集部分数据，对数据进行探索，包括数据描述，数据质量验证等。

3、数据准备

进行数据收集，并进行数据清洗，数据集成等操作，完成数据挖掘前的准备工作

4、模型建立

选择和应用各种数据挖掘模型，并对模型进行优化，确定模型是否实现了预定的商业目标

5、模型评估

对模型进行评估，并检查模型构建的每一个步骤，确认，模型是否实现了预定的目标

6、上线发布

模型的作用是找到数据中的金矿，也就是我们所说的知识，获得的知识需要转化成用户可以使用的方式，呈现的方式可以是一份报告，也可以是一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分，那么后续的维护和监控就变得异常重要

数据挖掘十大算法

1、C4.5

决策树的算法，优点在于在构建过程中就进行了剪枝，并可以处理连续的属性，也可以对不完整的属性进行处理。

2、朴素贝叶斯（Naive Bayes）

基于概率论的算法，对未知物体进行分类，对于给出的未知物体出现的情况下，各类别物体出现的概率，谁的概率最大，该物体就属于哪个分类

3、SVM

支持向量机

4、KNN

K-Nearest Neighbor K最近邻算法，所谓K近邻，每个样本都可以用它最近的K歌邻居代表，如果一个样本，他的K个邻居都属于一类，那该样本也属于这一个分类

5、Adbaoost

再训练过程中建立联合的分类模型，，它可以将多个弱的分类聚合成一个强的分类

6、CART

分类和回归树，classifiction and regression trees，一个分类树，一颗回归树

7、Apriori

挖掘关联规则的算法，它是通过挖掘频繁项集来揭示物品之间的关联关系，被频繁应用于商业挖掘和网络安全领域。频繁项集是指经常一起出现的物品的集合，关联规则预示着两种物品之间可能存在着很强的关系

8、K-means

聚类算法，最总我想把物品分成K类，假设每个类别里都有一个中心点，既意见领袖，它是这个类别的核心。现在我有一个新点需要归类，这个时候计算这个新点离哪个核心最近就属于哪一类。

9、EM

最大期望算法，求参数的最大似然估计的算法。假设我们想要评估参数A和参数B，在开始状态下二者都是未知的，并且知道A就可以知道B，反之亦然。可以考虑先赋值A一个初值，以此得到B值，再通过B值重新估算A值，直到收敛为止。

10、pagerank

起源于论文影响力，一篇论文被引用的越多，代表论文的影响力越强，这个被应用到网页权重计算中：当这个网页链出的越多，证明这个网页“参考文献”越多，当这个网页链入的越多，证明被引用的越多，基于这个原理，我们可以得到网站权重的划分

数据挖掘中的数学基础

1、概率论与数理统计

2、线性代数

3、图论

4、最优化方法

体会：挖掘算法的底层原理还是可以用很直白的话语解释清楚，只是在实现过程中可能基础不扎实导致应用不灵活。

商品之间的关联规则：Apriori算法，Apriori就是挖掘两个物品之间的关联关系的

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Android room事务 android room数据库

下一篇：charles抓不了python发的请求 charles抓包post请求

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

chart 数据挖掘lift 数据挖掘路线

chart 数据挖掘lift 数据挖掘路线

51CTO博客