第一章 概述
1.1 背景
- 数据爆炸性增长
- 数据的收集和数据的可获得性
- 数据挖掘:海量数据的自动分析技术
1.2 基本概念
1.2.1 数据
- 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。
- 数据可能存储在数据库、数据仓库和其他信息资料库中。
- 类型
- 连续型:数值
- 离散型:标称 二元
- 符号 字符
- 存在问题:
- 不一致 错误 缺失
1.2.2 信息
- 信息是具有时效性的,有一定含义的,有逻辑的、经过加工处理的、对决策有价值的数据流。
1.2.3 知识
- 人们实践经验的结晶且为新的实践所证实的;是关于事物运动的状态和状态变化的规律;是对信息加工提炼所获得的抽象化产物。
- 知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。
- 知识:把有关信息关联在一起所形成的信息结构。
- 知识反映了客观世界中事物之间的关系,不同事物或者相同事物间的不同关系形成了不同的知识。
1.2.4 智慧
- 是人类基于已有的知识,针对物质世界运动过程中产生的问题根据获得的信息进行分析、对比、演绎找出解决方案的能力。
- 这种能力运用的结果是将信息的有价值部分挖掘出来并使之成为知识架构的一部分。
1.2.5 三者关系
数据经过处理和加工,变成了信息。 信息之间产生了联系,形成了知识。 通过现有知识,发现了一些知识之间的新关系,并且串联起来,形成了智慧。
1.2.6 数据挖掘的定义
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据源是真实的。 数据挖掘(数据融合、数据分析和决策支持)。
数据挖掘其实是一类深层次的数据分析方法。
- 传统数据分析方法与数据挖掘的区别
- 海量数据
- 高维数据
- 数据的高度复杂性、非结构化的
- 噪声数据
1.3 数据挖掘发展历史
- 1989年,出现**知识发现(KDD)**这一术语。
- 最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。
1.4 主要功能
- 关联分析
- 从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性-值条件元组。
- 分类
- 通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。
- 回归
- 预测的不是类别,而是一个连续的数值。
- 聚类分析
- 无监督分类,指把一组数据分成不同的“簇”,类内相似度大,类间相似度小。
- 离群点分析
- 离群点:一些与数据的一般行为或模型不一致的孤立数据
- 时间序列分析
- 时间序列分析即预测(Prediction)
1.5 知识发现的过程
- 知识发现的过程
- 数据清理数据集成数据选择数据变换数据挖掘模式评估知识表示
- 数据预处理
- 净化 推测 转换 数据缩减
1.6 数据挖掘与其他学科的关系
- 数据挖掘可以认为是数据库技术与机器学习的交叉
1.7数据挖掘的应用
1.8 未来趋势
第一章完