文章目录

  • 一:数据挖掘过程
  • 阶段1:数据收集
  • 数据来源:
  • 重要性:
  • 存储:
  • 阶段2:数据处理
  • 特征提取
  • 对象与特征(Objects and features)
  • 数据清理
  • 数据特征选择与转化
  • 阶段3:分析
  • 二:数据类型
  • 1:面向非依赖性的数据 (Nondependency-oriented data)
  • 2:面向依赖性的数据(dependency-oriented data)
  • 三:数据展示
  • 数据问题及挑战
  • 四:数据挖掘的主要问题
  • 1. 模式发掘 :Association pattern mining
  • 2. 分类 classification
  • 3. 聚类 clustering
  • 4. 离群检测 outlier detection


一:数据挖掘过程

数据挖掘结构是什么 数据挖掘的原理_数据

阶段1:数据收集

数据来源:

  1. 传感器网络
  2. 用户调查
  3. 自动收集的文件

重要性:

非常重要,对整个数据挖掘过程产生重大影响

存储:

数据仓库

阶段2:数据处理

特征提取

目的:将数据转换成对数据挖掘算法友好的格式

数据挖掘结构是什么 数据挖掘的原理_大数据_02

对象与特征(Objects and features)

对象和特征在数据层面的含义

数据挖掘结构是什么 数据挖掘的原理_数据挖掘结构是什么_03

数据清理

对数据的缺失和错误部分进行估计或纠正。

可能采取的措施:

  1. 删除该条记录
  2. 估计丢失数据的值
  3. 删除不一致的地方

数据特征选择与转化

可能采取的措施:

  1. 删除不相关的特征
  2. 将现有的特征转化为不同的维度或格式
    例如:numerical age ->{young,middle,elderly}

阶段3:分析

主要任务:针对预处理数据 设计和应用算法方法
通常会把问题分解为以下4个模块:

  1. 关联模式挖掘
  2. 集群clustering
  3. 分类classification
  4. 离群点检测 outlier detection

二:数据类型

1:面向非依赖性的数据 (Nondependency-oriented data)

  1. 数值或定量的
  2. 分类或无序的离散值
  3. 二进制数据{0,1}。
  4. 文本数据

2:面向依赖性的数据(dependency-oriented data)

也就是说:对象之间可能存在 依赖关系

  1. 隐性(implicit):从传感器收集的连续的 测量数据
  2. 显性(explicit):网络连接:节点(对象)通过边(关系)连接
    例如:Facebook social networks

三:数据展示

无论分类算法如何,不合适的数据都会导致 分类性能 问题

数据问题及挑战

  1. 不同数据特征使用不同的规模(尺度)
    height:{100,230} 厘米
    wight:{40,120}公斤
  2. 表示不同类型的数据
    数字编码{是:0 否:-1}
  3. 文本数据(划分规则)
  • 所有单词(a list of words)
  • 所有去重后单词(a set of words)
  • 所有单词频率(By a vector of word frequency)
  • 所有字母出现频率(by a vector of letter frequency)
  1. 特征修剪
    许多不相关的特征(即与预测完全不相关的特征)
    如何处理冗余的特征?
  • 文本数据 的不相关特征:一个词总是或几乎从不出现
  • 数字数据 的不相关特征:低方差特征

四:数据挖掘的主要问题

1. 模式发掘 :Association pattern mining

频繁模式挖掘(二进制数据集)

example:

数据挖掘结构是什么 数据挖掘的原理_数据挖掘_04

超市购买商品,人们总是在购买面包的同时会购买黄油和牛奶

2. 分类 classification

通过 训练数据 学习一个固定的特征,即类标签数据中 剩余数据特征 之间的关系。通过学习所产生的学习模型可以用来估计(预测),测试数据记录中的类标签(类标签值是不可知的)。 属于 监督学习(supervised learning )的一种。

监督学习:

解释一:

具有标记的训练样本进行学习,以尽可能【对训练样本集外的数据进行分类预测】。

解释二:

通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有了 对未知数据进行分类的能力
如:KNN;SVM;训练神经网络;决策树

3. 聚类 clustering

给定一个数据集,将其对象划分为若干组(集群),使每个集群中的对象彼此相似。属于无监督学习 (unsupervised version of classification)的一种:

无监督学习:

未标记的样本进行训练学习,进而发现这些样本中的潜在结构知识。 (KMeans,DL),即事先没有任何训练样本,而需要直接对数据进行建模

exmpales:
客户产品推送,根据不同客户的情况,比如兴趣爱好,身体健康等特征,向客户推送不同的产品。如果是客户1喜欢运动,则优先推送户外运动,健身相关产品等

4. 离群检测 outlier detection

给定一个数据集,确定离群值,即与其余对象有显著差异的对象。

examples:

  • 信用卡欺诈
  • 检测传感器事件
  • 医学诊断
  • 地球科学