《数据挖掘导论》读书笔记(一) -27

  • 数据挖掘的4大主要任务:预测建模、聚类分析、关联分析、异常检测
  • 数据集是数据对象的集合,数据对象又称为:记录、点、向量、模式、时间、案例、样本、观测或实体
  • 属性:数据对象的性质和特征
  • 测量标度:将数值或符号值与数据对象的属性相关联的规则
  • 属性分类:
  • 根据数值的性质,数值的如下性质用来描述属性:
  • 相异性 = 和≠
  • 序 < ≤ > ≥
  • 加法 +和-
  • 乘法 *和/

对应四种属性类型:标称、序数、区间、比例(也是测量标度类型),分类或定性属性不具备数的大部分性质,即使用整数表示,也看做符号,定量属性具备数的大部分性质,定量属性可以是连续值和整数值。

数据挖掘算法导论 数据挖掘导论知识点_数据挖掘算法导论

  • 属性的可能取值个数:
  • 离散的:具有有限个值或无限可数个值,二元属性是特殊地离散属性
  • 连续的:能取任意实数值的属性
  • 非对称属性:二元属性中只关注非零属性值的情况
  • 数据集的一般特性:
  • 维度dimensionality:维数灾难(curse of dimensionality),降维或维归约(dimensionality reduction)
  • 稀疏性sparsity:如在非对称属性的数据集上,一个数据对象的大部分属性值为零。实际上,稀疏性是一个优点,因为只有非零值才需要储存和处理。有些数据挖掘算法仅适合处理稀疏数据
  • 分辨率resolution:指属性观测值采集的频率
  • 数据集的类型
  • 记录数据及其变体:
  • 基于图形的数据:分为带有对象之间联系的数据 和 具有图像对象的数据
  • 有序数据:属性涉及时间或空间序的联系:
  • 时序数据:可以作为记录数据的扩充,每个数据包含与之相关联的时间。一般蕴含与时间相关的模式
  • 序列数据:各个实体的序列,如基因组序列数据
  • 时间序列数据:在分析时间序列数据时,重要的是要考虑时间自相关,即两个测量时间接近,测量值通常非常相似
  • 空间数据:对应的,重要的是要考虑空间自相关
  • 数据质量(共8点)
  • 测量误差和数据收集误差
  • 噪声和伪像:噪声是测量误差的随机部分
  • 精度、偏倚、准确率:精度precision:同一量,重复测量值之间的接近程度,用标准差度量
    偏倚bias:测量值和被测量之间系统的变差

准确率accuracy:被测量的测量值和实际值之间的接近程度

  • 离群点:
  • 遗漏值:处理策略
  • 删除数据对象或属性: 优点:简单有效
    缺点:不完整的数据对象也包含有用的信息;样本量的考虑;删除的属性可能很重要
  • 估计遗漏值: 方法:
  • 属性是连续的,使用最近邻的平均值来估计
  • 属性是分类的,使用最近邻的最常出现的属性值来估计
  • 具有少量但分散的时间序列数据,考虑以大致平滑的方式变化,遗漏值可以用插值估计
  • 对于空间数据,考虑空间自相关性,使用临近地区的值来估计

缺点:任何填补缺失值的方法都会给数据到来噪声,填补的量越大,到来的噪声越多。

  • 分析时忽略遗漏值:修改算法,以忽略遗漏值。如在聚类中,计算两个样本的相似性,如果某一样本或两个样本都有一些属性有遗漏时,则可以使用没有遗漏的属性来近似计算相似性。 缺点:如果属性数目本来很少,或遗漏值的数量很大时,误差比较大
  • 重复:删除重复时,要注意的两个问题
  • 相同对象,属性不一致的处理;
  • 相似的不同对象,要避免合并在一起
  • 不一致:数据与属性的特征不符合,如身高为负值,地址中邮编和城市名不一致
  • 从应用角度,数据的时效性,相关性,描述数据文档的正确性