在数据挖掘中,根据数据分析者的目标,可以将数据挖掘任务分为:
- 模式挖掘
- 频繁模式
- 异常模式
- ...
- 模型挖掘
- 预测建模
- 描述建模
- ...
本文将介绍的分类即属于预测建模的过程。预测建模是指根据数据线建立一个模型,然后应用这个模型来对未来的数据进行预测。根据被预测的变量的不同,可以区分为分类和回归。
- 分类
- 构造、使用模型来对某个样本的类别进行判别
- 主要用于对离散的数据进行预测
- 典型应用:信誉评估、医学诊断
- 回归(预测)
- 构造、使用模型来对某个样本的类别进行判别
- 主要用于对离散的数据进行预测
- 典型应用:性能预测
分类简单分为建立模型阶段和使用模型阶段。
第一步,建立模型
用来构建模型的数据集被称为训练集
模型一般表示为:分类规则,决策树或者数学公式
第二步,使用模型阶段
首先要测试模型的准确性
测试集和由模型进行分类的结果进行比较
两个结果相同所占比率称为准确率
测试集和训练集必须不相关
新数据进行分类
数据预处理
分类方法评价
常用的分类方法
- 决策树分类
- 贝叶斯分类
- 支持向量机
- 神经网络
- K近邻分类