前言:传统数据分析技术在应对新型数据集提出的挑战存在种种局限性,而数据挖掘打破了这些局限。数据挖掘不是要取代其他分析领域,而是以他为基础。
本书涵盖:数据预处理、可视化、预测建模、关联分析、聚类和异常检测
绪论
- 什么是数据挖掘
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。
数据挖掘是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型及用新方法分析旧有数据类型提供了令人振奋的机会。 - 广为人知的应用
商务
利用pos收集技术,可以利用收集到的信息,加上商务网站日志、电购中心顾客服务记录等重要商务数据,更好的理解客户需求,做出明智的商务决策。顾客分析、定向营销、工作流管理、商店分布和欺诈检测
医学、科学与工程
这些领域数据特有的规模和时空特性,传统的方法不适合分析这些数据集
数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。
KDD知识发现的过程
输入数据 -> 数据预处理(特征选择、维归纳、规范化、选择数据子集)->数据挖掘 -> 后处理(模式过滤、可视化、模式表示)
- > 信息
数据挖掘要解决的问题
- 可伸缩性 >>处理海量数据集
- 高维性 >>数据集具有成百上千的属性,要求数据挖掘必须能解决高维度的问题
- 异种数据和复杂数据 >> 挖掘复杂对象应考虑数据中的联系,如时间和空间的自相关、图的连通性、半结构化文本和XML文档中元素之间的父子联系
- 数据的所有权与分布 >> 分布式挖掘算法挑战(如何降低执行分布式计算所需的通信量、如何有效地统一从多个资源得到的数据挖掘结果、如何处理数据安全性问题)
- 非传统的分析 >> 自动地产生和评估假设
数据挖掘任务
- 预测任务
- 描述任务 导出概况数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)
预测建模 涉及以说明函数变量的方式为目标变量建立模型。(例如预测花的类型)
有两类预测建模任务:分类,用于预测离散的目标变量;
回归,用于预测连续的目标变量;
关联分析 用来发现描述数据中强关联特征的模式(例如 购物篮分析尿布和牛奶)
聚类分析 旨在发现紧密相关的观察值群组,使得与属于不同簇的观察值相比,同一簇的观测值之间尽可能类似 (例如文档聚类)
异常检测 识别特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点(例如 信用卡欺诈检测)