文章目录

  • 1 分类
  • 2 聚类
  • 3 关联分析
  • 4 数值预测
  • 5 异常点挖掘
  • 6 序列分析
  • 7 社会网络分析



数据挖掘是从大量数据中自动发现隐含的信息和知识的过程,属于主动分析方法,不需要分析者的先验假设,可以发现未知的知识。

1 分类

分类(classification) 是通过对具有类别的对象的数据集进行学习,概括其主要特征,构建分类模型,根据该模型预测对象的类别的一种数据挖掘和机器学习技术。

例如,电信公司的客户可以分为两类,一类是忠诚的,一类是流失的。根据这两类客户的个人特征方面的数据以及在公司的消费方面的数据,利用分类技术可以构建分类模型。

iv 数据挖掘 数据挖掘classification_数据挖掘

2 聚类

聚类(clustering) 是依据物以类聚的原理,将没有类别的对象根据对象的特征自动聚集成不同簇的过程,使得属于同一个簇的对象之间非常相似,属于不同簇的对象之间不相似。

其典型应用是客户分群,根据客户特征把客聚成不同的客户群。

3 关联分析

关联分析最早用于分析超市中顾客一次购买的物品之间的关联性。

发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。

例如,发现关联规则(association rule)“尿不湿®啤酒(0.5%,60%)”,其含义为,0.5%的交易中会同时购买尿不湿和啤酒,且买尿不湿的交易中有60%会同时买啤酒。

4 数值预测

数值预测用于预测连续变量的取值。常用的预测方法是回归分析。

例如,可以根据客户个人特征,如年龄、工作类型、受教育程度、婚姻状况等,来预测其每月的消费额度。

5 异常点挖掘

孤立点分析(outlier analysis),一些与数据一般特点不一致的孤立点。

例如,信用卡客户欺诈检测。

6 序列分析

序列分析是对序列数据库进行分析,从中挖掘出有意义模式的技术。

序列模式(sequential pattern)的发现属于序列分析,它是从序列数据库中发现的一种有序模式.。

7 社会网络分析

社会网络(social network)是由个人或组织及其之间的关系构成的网络。

社会网络分析(social network analysis)是对社会网络的结构和属性进行分析,以发现其中的局部或全局特点,发现其中有影响力的个人或组织,发现网络的动态变化规律等。