在数据挖掘中,根据数据分析者的目标,可以将数据挖掘任务分为:

  • 模式挖掘
  1. 频繁模式
  2. 异常模式
  3. ...
  • 模型挖掘
  1. 预测建模
  2. 描述建模
  3. ...

本文将介绍的分类即属于预测建模的过程。预测建模是指根据数据线建立一个模型,然后应用这个模型来对未来的数据进行预测。根据被预测的变量的不同,可以区分为分类和回归。

  • 分类
  1. 构造、使用模型来对某个样本的类别进行判别
  2. 主要用于对离散的数据进行预测
  3. 典型应用:信誉评估、医学诊断
  • 回归(预测)
  1. 构造、使用模型来对某个样本的类别进行判别
  2. 主要用于对离散的数据进行预测
  3. 典型应用:性能预测

分类简单分为建立模型阶段和使用模型阶段。

第一步,建立模型

数学建模 数据挖掘 数学建模挖掘模型_分类

用来构建模型的数据集被称为训练集

 

模型一般表示为:分类规则,决策树或者数学公式

第二步,使用模型阶段

数学建模 数据挖掘 数学建模挖掘模型_分类_02

 

   首先要测试模型的准确性

测试集和由模型进行分类的结果进行比较

    两个结果相同所占比率称为准确率

    测试集和训练集必须不相关

新数据进行分类

数据预处理

数学建模 数据挖掘 数学建模挖掘模型_建模_03

 

 分类方法评价

数学建模 数据挖掘 数学建模挖掘模型_数据挖掘_04

常用的分类方法

  • 决策树分类
  • 贝叶斯分类
  • 支持向量机
  • 神经网络
  • K近邻分类