数据挖掘算法导论数据挖掘导论知识点

关注 mob6454cc75107c

数据挖掘算法导论数据挖掘导论知识点

转载

mob6454cc75107c 2023-09-10 15:34:06

文章标签 数据挖掘算法导论数据数据集时间序列 文章分类 数据挖掘人工智能

《数据挖掘导论》读书笔记（一） -27

数据挖掘的4大主要任务：预测建模、聚类分析、关联分析、异常检测
数据集是数据对象的集合，数据对象又称为：记录、点、向量、模式、时间、案例、样本、观测或实体

属性：数据对象的性质和特征
测量标度：将数值或符号值与数据对象的属性相关联的规则

属性分类：

根据数值的性质，数值的如下性质用来描述属性：

相异性 = 和≠
序 < ≤ > ≥
加法 +和－
乘法 *和/

对应四种属性类型：标称、序数、区间、比例（也是测量标度类型），分类或定性属性不具备数的大部分性质，即使用整数表示，也看做符号，定量属性具备数的大部分性质，定量属性可以是连续值和整数值。

数据挖掘算法导论数据挖掘导论知识点_数据挖掘算法导论

属性的可能取值个数：

离散的：具有有限个值或无限可数个值，二元属性是特殊地离散属性
连续的：能取任意实数值的属性

非对称属性：二元属性中只关注非零属性值的情况

数据集的一般特性：

维度dimensionality：维数灾难（curse of dimensionality），降维或维归约（dimensionality reduction）
稀疏性sparsity：如在非对称属性的数据集上，一个数据对象的大部分属性值为零。实际上，稀疏性是一个优点，因为只有非零值才需要储存和处理。有些数据挖掘算法仅适合处理稀疏数据
分辨率resolution：指属性观测值采集的频率

数据集的类型

记录数据及其变体：
基于图形的数据：分为带有对象之间联系的数据和具有图像对象的数据
有序数据：属性涉及时间或空间序的联系：

时序数据：可以作为记录数据的扩充，每个数据包含与之相关联的时间。一般蕴含与时间相关的模式
序列数据：各个实体的序列，如基因组序列数据
时间序列数据：在分析时间序列数据时，重要的是要考虑时间自相关，即两个测量时间接近，测量值通常非常相似
空间数据：对应的，重要的是要考虑空间自相关

数据质量（共8点）
测量误差和数据收集误差
噪声和伪像：噪声是测量误差的随机部分
精度、偏倚、准确率：精度precision：同一量，重复测量值之间的接近程度，用标准差度量
偏倚bias：测量值和被测量之间系统的变差

准确率accuracy：被测量的测量值和实际值之间的接近程度

离群点：
遗漏值：处理策略

删除数据对象或属性：优点：简单有效
缺点：不完整的数据对象也包含有用的信息；样本量的考虑；删除的属性可能很重要
估计遗漏值：方法：

属性是连续的，使用最近邻的平均值来估计
属性是分类的，使用最近邻的最常出现的属性值来估计
具有少量但分散的时间序列数据，考虑以大致平滑的方式变化，遗漏值可以用插值估计
对于空间数据，考虑空间自相关性，使用临近地区的值来估计

缺点：任何填补缺失值的方法都会给数据到来噪声，填补的量越大，到来的噪声越多。

分析时忽略遗漏值：修改算法，以忽略遗漏值。如在聚类中，计算两个样本的相似性，如果某一样本或两个样本都有一些属性有遗漏时，则可以使用没有遗漏的属性来近似计算相似性。缺点：如果属性数目本来很少，或遗漏值的数量很大时，误差比较大

重复：删除重复时，要注意的两个问题

相同对象，属性不一致的处理；
相似的不同对象，要避免合并在一起

不一致：数据与属性的特征不符合，如身高为负值，地址中邮编和城市名不一致
从应用角度，数据的时效性，相关性，描述数据文档的正确性

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：ios 删除已经上传的ipa包 iphone删除ipad照片

下一篇：android 重启thread android threadlocal

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册