数据分类
- 数据分类的定义
- 分类过程
- 1 获取数据
- 2 预处理
- 3 分类器设计
- 4 分类决策
- 分类评价准则
- 精确度
- 查全率&查准率
- F-measure
- 几何均值(G-mean)
- 决策树
- 决策树算法 ID3
- 先验概率
- 信息熵 : 信息量的期望值
- 由属性 A f A_f Af
- 信息增益
- 决策树算法 ID4.5
- ID4.5算法的优点
- 支持向量机
- 总结
数据分类的定义
把数据样本映射到一个事先定义的类的过程
即是说:
给定一组用于输入的属性向量以及各向量所属的各类,用基于归纳的学习算法得出分类标准.
用这个分类标准对你新给出的属性向量进行分类,使正确率最高
要注意的事儿 :
用于分类的 属性值可以是连续的
但 , 只能分类到离散的类 .
分类过程
1 获取数据
定义 : 获取一组向量以及各向量所属的类
2 预处理
定义 : 对你所获取的向量进行处理
预处理包括
1 . 去除噪声数据,对空值进行处理
2 . 数据集成或者变换(消除冗余数据,对数据降维)得到最能反映数据特性的特征数据空间
注释 :
"2."其实就是把向量中一些对分类影响不大的数据维度给去掉,就比如你的姓名与你的工资的联系不大,那么你就可以把姓名这个维度去掉.
3 分类器设计
过程如下:
1 . 划分数据集.
将数据集划分为训练集和测试集
训练集 用于 对数据分类器进行训练,就是用于学习的数据
测试集 用于 对已经经过学习的分类器进行评测
2 . 分类器构造
就是用训练集通过分析每个样本自己所带有的各属性值还有所属的类别
总结规律 挖掘出判别规则
[具体用什么方法,后面介绍]
3 . 分类器测试
(1)利用构造好的分类器对测试集进行分类
(2)用测试集自己的类别和分类器分类的类别进行对比 , 从而得到分类器的性能
4 分类决策
当这个分类器满足了你的分类标准 , 就可以用它来进行分类决策了
分类评价准则
给定测试集[这里的N表示测试集中样本个数]
表示测试集中数据样本
表示 的类标号
假设共有个类别,那么
假设 对于测试集的 第
被正确分类为 类的样本数量为
被错误分类为 类的样本数量为
本属于其他类别 但被分为为 类的样本数量为
精确度
就是正确分类的样本所占比例
查全率&查准率
对于第
查全率 表示在 本类样本中 , 被正确分类的样本所占的比例
查准率 表示 被分类为该类的样本中 , 真正属于该类样本所占的比例
F-measure
这是 查全率 和 查准率 的组合表达式 , 可以比较合理的评价分类器对每一类样本的分类性能
这里的
几何均值(G-mean)
这个评价准则非常有效 , 能够合理评价分类性能 .
是各个类别查全率的乘积的平方根 .
当各个类别的查全率都大时 , G-mean才相应增大 , 它同时兼顾了各个类别的分类精度 .
决策树
就是以给定数据样本为基础的归纳学习方法 .
决策树算法 ID3
这里是B站上以为阿婆主的视频链接 => ID3决策树算法讲解[11分钟40秒]
B站上南开大学决策树算法的链接 => 系统化学习决策树
1 . 只能处理离散数据
2 . 采用 信息增益 作为选择根节点和分支结点的度量标准
假定给定的数据集
样本
用 维特性向量 表示
分别对应 个描述属性
就是说
.
.
.
表示样本的类标号
假设要研究的问题含有 个类
那么
先验概率
假设 是数据集 X 中 属于类别 的样本数量 , 则 各个类别的先验概率 为
信息熵 : 信息量的期望值
对信息量的描述可以看这位博主的文章 : 信息熵
这里还有B站上一位阿婆主的视频信息量与信息熵
对给定的数据集 分类所需的 信息熵
为:
这里就是将
分类为 类的概率
与 , 分类为 所需要的信息量个数为 比特
相乘 ,再相加, 所得的就是,分类为
最后
为什么是取对2为底的对数呢?
答: 这里可以取任何大一1的数,但通常取2或者自然对数.
但是当我们取2为底的时候构建决策树就可以以二分的思维构建,就是说 : 不是这个,那必然是另一个.这有利于我们构建决策树.
由属性
设属性 有 个不同取值分别为
{
即 :
[这里表示的属性跟的属性相同 , 比如两个人的工资相同]
.
.
.
每个数据样本的 属性 都 属于
}
利用描述属性 可以把数据集 划分为 个子集
{
即 : 假设
.
.
.
这里的 就是 的不同取值所划分的
在同一子集内的数据样本 , 具有相同的
就比如 =
[这里属性跟属性 取值相同 , 就好比两个人的工资相同]
代表一个的子集
这里子集 中 , 各数据样本的 具有相同取值
}
设 表示子集
表示子集 中属于 类别
则由描述属性 划分数据集之后所得到的 信息熵 为
, 代表数据样本 被划分到的 概率 , 表示为划分到子集中的样本的数量与样本总数的比值.
其中
, 表示分类 中的数据样本所 期望得到的信息量[就是信息熵].
注意:
的值越小,代表用 划分数据集纯度越高.就是说用划分数据期望的信息量越少,代表含有的分类数据样本的信息量越多.
信息增益
代表 {对 分析所期望的信息量} 减去 {用 划分数据集后所得到的还期望的信息量}.
即 : {划分数据需要的信息量} - {用 划分数据之后还需要的信息量}.
就是说:用
得到的信息量越多 , 表明这个属性包含的信息量越多.
决策树算法 ID4.5
这是ID3算法的改进算法
ID4.5算法的优点
1 . 可以计算连续属性值的信息增益比
2 . 克服了ID3算法使用信息增益选择属性时对取值较多的属性的偏向.
其中 表示 中的样本数量
表示 划分到子集 的概率与划分到子集 所需要的的信息量之积求和
即是 : 划分数据集为的属性值所划分的子集 的集合所期望的信息量
支持向量机
这个我后续会更上 , 今晚爆肝了
记2020年12月16日晨
总结
以上内容均来自陈志泊教授主编的清华大学出版社的<<数据仓库与数据挖掘(第二版)>>,欢迎大家阅读原版