对于的处理任务,通常采用抽样策略。抽样的过程中应当分析抽样的规模,以及如何抽样才能实现类似于原数据的分布。常用的数据处理方法如下:

  1)聚类分析:按照数据对象的相似度,把数据对象划分聚集簇,簇内对象尽量相似,簇间对象尽量相异。发现任意形状的簇、处理高维数据、具有处理噪声的能力以及聚类结果可解释、易使用是聚类分析的目标。

  2)分类和预测:分类和数值预测是问题预测的两种主要类型。分类是一种有监督的学习过程,通过对已知的训练函数集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器。

  预测是利用数据挖掘工具建立连续值函数模型,对已有数据进行研究得出结论。

  从技术上可分为定性预测和定量预测。定性预测是指使用者根据掌握的经验及判断力对将要预测的对象作出定性化的分析过程;定量预测是使用数学模型,对历史统计数据使用数学方法得到变量间规律性关系。

  3)关联分析:不同事物之间看似没有任何联系或依赖但通过科学的分析方法往往能够找出这些事物间的潜在关系。关联分析通常使用关联规则频繁项集的Apriori算法分析事物之间存在的依赖或关联来找出事物间的规律性,并且通过规律性进行预测。

  在实践中,我们得到的数据可能包含大量的缺失值、异常值等,这对数据分析是非常不利的。此时,我们需要对脏数据进行预处理,以获得标准、干净和连续的数据,这些数据可以用于数据分析、数据挖掘等。