数据挖掘结构是什么数据挖掘的原理

转载

mob6454cc773039 2023-08-10 16:56:07

文章标签 数据挖掘结构是什么数据挖掘大数据深度学习数据 文章分类 数据挖掘人工智能

文章目录

一：数据挖掘过程

阶段1：数据收集

数据来源：
重要性：
存储：

阶段2：数据处理

特征提取
对象与特征(Objects and features)
数据清理
数据特征选择与转化

阶段3：分析

二：数据类型

1：面向非依赖性的数据 (Nondependency-oriented data)
2：面向依赖性的数据(dependency-oriented data）

三：数据展示

数据问题及挑战

四：数据挖掘的主要问题

1. 模式发掘：Association pattern mining
2. 分类 classification
3. 聚类 clustering
4. 离群检测 outlier detection

一：数据挖掘过程

数据挖掘结构是什么数据挖掘的原理_数据

阶段1：数据收集

数据来源：

传感器网络
用户调查
自动收集的文件

重要性：

非常重要，对整个数据挖掘过程产生重大影响

存储：

数据仓库

阶段2：数据处理

特征提取

目的：将数据转换成对数据挖掘算法友好的格式

数据挖掘结构是什么数据挖掘的原理_大数据_02

对象与特征(Objects and features)

对象和特征在数据层面的含义

数据挖掘结构是什么数据挖掘的原理_数据挖掘结构是什么_03

数据清理

对数据的缺失和错误部分进行估计或纠正。

可能采取的措施：

删除该条记录
估计丢失数据的值
删除不一致的地方

数据特征选择与转化

可能采取的措施：

删除不相关的特征
将现有的特征转化为不同的维度或格式
例如：numerical age ->{young,middle,elderly}

阶段3：分析

主要任务：针对预处理数据设计和应用算法方法
通常会把问题分解为以下4个模块：

关联模式挖掘
集群clustering
分类classification
离群点检测 outlier detection

二：数据类型

1：面向非依赖性的数据 (Nondependency-oriented data)

数值或定量的
分类或无序的离散值
二进制数据{0,1}。
文本数据

2：面向依赖性的数据(dependency-oriented data）

也就是说：对象之间可能存在 依赖关系

隐性(implicit):从传感器收集的连续的测量数据
显性(explicit):网络连接：节点(对象)通过边(关系)连接
例如：Facebook social networks

三：数据展示

无论分类算法如何，不合适的数据都会导致分类性能问题

数据问题及挑战

不同数据特征使用不同的规模(尺度)
height:{100,230} 厘米
wight:{40,120}公斤
表示不同类型的数据
数字编码{是:0 否:-1}
文本数据(划分规则)

所有单词(a list of words)
所有去重后单词(a set of words)
所有单词频率(By a vector of word frequency)
所有字母出现频率(by a vector of letter frequency)

特征修剪
许多不相关的特征（即与预测完全不相关的特征）
如何处理冗余的特征？

文本数据的不相关特征：一个词总是或几乎从不出现
数字数据的不相关特征：低方差特征

四：数据挖掘的主要问题

1. 模式发掘：Association pattern mining

频繁模式挖掘（二进制数据集）

example:

数据挖掘结构是什么数据挖掘的原理_数据挖掘_04

超市购买商品，人们总是在购买面包的同时会购买黄油和牛奶

2. 分类 classification

通过 训练数据 学习一个固定的特征，即类标签 和 数据中剩余数据特征 之间的关系。通过学习所产生的学习模型可以用来估计(预测)，测试数据记录中的类标签(类标签值是不可知的)。属于监督学习(supervised learning )的一种。

监督学习：

解释一：
对具有标记的训练样本进行学习，以尽可能【对训练样本集外的数据进行分类预测】。
解释二：
通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了 对未知数据进行分类的能力。
如：KNN;SVM;训练神经网络；决策树

3. 聚类 clustering

给定一个数据集,将其对象划分为若干组(集群)，使每个集群中的对象彼此相似。属于无监督学习 (unsupervised version of classification)的一种:

无监督学习：

对未标记的样本进行训练学习，进而发现这些样本中的潜在结构知识。 (KMeans,DL)，即事先没有任何训练样本，而需要直接对数据进行建模

exmpales：
客户产品推送，根据不同客户的情况，比如兴趣爱好，身体健康等特征，向客户推送不同的产品。如果是客户1喜欢运动，则优先推送户外运动，健身相关产品等

4. 离群检测 outlier detection

给定一个数据集，确定离群值，即与其余对象有显著差异的对象。

examples：

信用卡欺诈
检测传感器事件
医学诊断
地球科学

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：sql server导入access 向sql server数据库中导入

下一篇：python执行vba代码 python执行vbs

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯