写在前面:粗体字为书中定义,红色字体为笔者认为的重点词。
【第一章:绪论】
1.数据挖掘:在大型数据存储库中,自动地发现有用信息的过程。
2.数据预处理步骤:融合来自多个数据源的数据 ,清洗数据以及消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。
3.数据挖掘要解决的问题:可伸缩,高维性,异种数据和复杂数据,数据的所有权和分布,非传统的分析。
4.数据挖掘任务:预测任务,描述任务。
四种主要数据挖掘任务:
(1)预测建模,有两类:分类,用于预测离散目标;回归,用于预测连续目标
(2)关联分析
(3)聚类分析
(4)异常检测
【第二章:数据】
(一)属性与度量
1.属性:是对象的性质或特性,它因对象而异,或随时间而变化。
2.测量标度:是将数值或符号值与对象的属性相关联的规则(函数)。
3.属性的不同类型:
(1)标称,描述:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息区分对象。
(2)序数:序数属性的值提供足够的信息确定对象的序。
(3)区间:对于区间属性,值之间的差是有意义的,即存在测量单位。
(4)比率:对于比率变量,差和比率都是有意义的。
属性类型的定义是累积的。(1)(2)统称分类的或定性的属性,(3)(4)统称定量的或数值的属性。注意:定量属性可以是整数值或连续值。
4.非对称的属性:只有非零值才重要的二元属性是非对称的二元属性。这类属性对于关联分析特别重要。
(二)数据集的类型
1.数据集的一般特性:纬度,稀疏性,分辨率
2.基于图形的数据:带有对象之间联系的数据,具有图形对象的数据
3.有序数据:时序数据,序列数据,时间序列数据,空间数据