数据分析中的数据挖掘涉及到了很多的算法,我们要想做好数据分析工作就需要学习这些算法。在数据挖掘的算法中,每个算法都有着自己的优势,它们在数据挖掘领域都产生了较为深刻的影响。那么大家知不知道数据挖掘中的经典算法都有哪些呢?下面我们就给大家一一介绍。

1.K-Means算法

The k-means algorithm算法,也就是K-Means算法,k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k大于n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。这种算法在数据挖掘中是十分常见的算法。

2.支持向量机算法

而Support vector machines就是支持向量机,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,这种方法广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。这些优点也就成就了这种算法。

3.C4.5

C4.5算法是机器学习算法中的一种分类决策树算法, C4.5算法继承了ID3算法的优点,并对ID3算法进行了改进,这种改进具体体现在四个方面,第一就是在树构造过程中进行剪枝,第二就是能够完成对连续属性的离散化处理,第三就是用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足,第四就是能够对不完整数据进行处理。那么这种算法的优点是什么呢?优点就是产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

我们在这篇文章中给大家介绍了数据挖掘中的三个算法,分别是The k-means algorithm算法、Support vector machines、C4.5算法,这些算法在数据挖掘中都是十分常见并且十分重要的,希望大家能够重视这些算法的学习,希望这篇文章能够更好地帮助大家去理解数据挖掘。