数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识表示为概念、 规则、规律、模式等形式。

也可以说,数据挖掘是一类深层次的数据分析。常见和应用最广泛的数据挖掘方法如下。 

 

①决策树:决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建设树的分支;

在每个分支子集中重复建立树的下层结点和分支的过程。国际上最早的、也是最有影响的决策树方法是Quiulan研究的ID3方法。 

 

②神经网络:神经网络方法是模拟人脑神经元结构,完成类似统计学中的判别、 回归、聚类等功能,是一种非线性的模型,主要有三种神经网络模型:前馈式网络、反馈式网络和自组织网络。

人工神经网络最大的长处是可以自动地从数据中学习,形成知识,这些知识有些是我们过去未曾发现的,因此它具有较强的创新性。

神经网络的知识体现在网络连接的权值上,神经网络的学习主要表现在神经网络权值的逐步计算上。

 

 ③遗传算法:遗传算法是模拟生物进化过程的算法,它由三个基本过程组成:繁殖(选择)、交叉(重组)、变异(突变)。

采用遗传算法可以产生优良的后代,经过若干代的遗传,将得到满足要求的后代即问题得解。 

 

④关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为 “A1A2...An=>B1B2...Bn”。

一般分为两个步骤:求出大数据项集、用大数据项集产生关联规则。

 

 除了上述的常用方法外,还有粗集方法,模糊集合方法,Bayesian Belief Netords ,最邻近算法(K-nearest Neighbors Method,kNN)等。