引论----


1.1 为什么进行数据挖掘

1.1.1 迈向信息时代

可用数据的爆炸式增长 ---》 催生了巨量的数据 ---》 在海量数据中如何发现有价值的信息 ---》

将有价值的信息转化成有组织的知识 ---》 数据挖掘 诞生。


1.1.2 数据挖掘是信息技术的进化

数据库的演化: 原始的文件处理 --> 复杂、功能强大的的数据库系统


1.2 什么是数据挖掘

数据中的知识发现 (KDD);

知识发现的过程:

(1)数据清理 (2)数据集成 (3)数据选择 (4)数据变换 (5)数据挖掘 (6)模式评估

(7)知识表示

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。


1.3 可以挖掘什么类型的数据

数据挖掘可以用于任何类型的数据,只要数据对于目标应用是有意义的。


1.3.1 数据库数据

数据库系统,也称数据库管理系统(DBMS),是由一组内部相关的数据(称作数据库)和一组管理和存取数据的软件程序组成。

关系数据库是表的汇集,ER数据模型将数据库表示成一组实体和它们之间的联系。

关系数据库是数据挖掘最常见、最丰富的信息源。


1.3.2 数据仓库

数据仓库是一个从多个数据源手机的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。

数据仓库通过数据清理,数据变换,数据集成,数据装入和定期数据刷新来构造。

数据仓库的数据围绕主题组织。数据存储从历史的角度提供信息,并且通常是汇总的。

数据仓库通常用称作数据立方体的多维数据结构建模。其中,每个维对应于模式中的一个或一组属性,而每个单元存放没种聚集度量值。


1.3.3 事物数据

事物数据库的每个记录代表一个事物。

一个事物包含一个唯一的事物标识号,以及一个组成事物的项的列表。


1.3.4 其他类型的数据

如时间相关或序列数据、数据流、空间数据、工程设计数据、超文本和多媒体数据、图和网状数据、万维网等。


1.4 可以挖掘什么类型的模式

有趣的模式即代表知识。


1.4.1 类/概念描述:特征化与区分

数据特征化 是目标类数据的一般特性或特征的汇总。

数据区分 是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。


1.4.2 挖掘频繁模式、关联和相关性

频繁模式是在数据中频繁出现的模式。包括频繁项集、频繁子序列和频繁子结构。

挖掘频繁模式导致发现数据中有趣的关联和相关性。


1.4.3 用于预测分析的分类与回归

分类是这样的过程,他找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。

导出模型是基于对训练数据的分析,该模型用来预测类标号未知的对象的类标号。

导出的模型可以用多种形式表示:

A.分类规则(IF-THEN)

B.决策树 每个节点代表在一个属性值上的测试,每个分支代表测试的一个结果,而树叶就代表类或者类分布。

C.数学公式

D.神经网络 类似于神经元的处理单元,单元之间加权连接。