1.数据挖掘又称从数据中发现知识,后者英文简称为 KDD。(Knowledge discovery from database)
2.在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识***,解决的方法就是数据仓库技术和数据挖掘技术。***
3.从存储方式对数据类型进行分类,可分为 结构化 数据和 非结构化 数据。
4.预测的模型构建需要 历史数据 来进行分析。
5.一般数据挖掘的流程顺序:
1.了解应用领域,了解相关的知识和应用目标;
2.创建目标数据集;
3.选择数据,数据清洗和预处理;
4.选择数据挖掘的技术、功能和合适的算法;
5.寻找感兴趣的模式、模式评估、知识表示。
6.数据挖掘
(1)作用对象:结构化数据,文本,多媒体数据
(2)方法:分类,聚类,关联,数值预测,序列分析,社会网络分析。
(3)分类(classification)——常用的数据挖掘技术
对具有类别的队形所形成的数据集,进行学习。就是根据有类别的数据提供的信息来概括类别的主要特征,构建分类的模型或规则,根据该模型或规则,预测对象的类别。
分类的输出是离散的类别值。
典型应用:决策树模型
(4)聚类(Clustering)
根据物以类聚的原理,将没有类别的对象,根据对象的特征,自动聚成不同簇的过程,使得同一个簇的对象之间——非常相似,属于不同簇的对象之间——不相似。
典型应用:客户群分类
(5)分类与聚类的区别:
相同:都属于对数据进行归类;
不同:分类针对有标签的数据分析;聚类针对没有标签的数据。
通俗来说,分类是有人事先给出了分类依据;而聚类需要自己去总结分类的依据。
(6)关联(Association)
发现数据之间的关联规则
关联分析是数据分析中常用的分析方法
典型应用:主要用于购物篮分析
(7)数值预测
用于连续变量的取值,
常用方法:回归分析
异常点挖掘(孤立点分析)
应用:信用卡客户欺诈检测
(8)数据挖掘是多学科的融合,包括算法、数据库、统计学以及机器学习。
(9)数据挖掘的应用
主要有 描述性数据挖掘 和 预测性(探索性)数据挖掘。
应用领域:市场分析与管理,风险分析与管理、欺骗检测和异常模式的检测(孤立点)
####数据对象及属性类型
数据处理是数据挖掘的基本处理步骤。
若数据对象放在数据库中,则它们是数据元祖;数据库的行对应与数据对象,而列对应于属性。
属性是一个数据字段,表示数据对象的一个特征。属性类别:
a.标称属性:是一些符号或事物的名称。数学运算没有意义。
b.二元属性:特殊的标称属性,只有两个类别,0和1.对称与非对称属性。 定性
c.序数属性:代表数值的顺序,例如优,差,良等标识。
d.数值属性:可度量的量。用整数和实数表示。
e.比率标度:有真正的零值标准。