冗余索引怎么查询

转载

墨韵流香 2024-07-17 12:08:30

一、数据清洗

作用：去除冗余数据(重复出现的数据、多余的数据)

弊端：采用忽略元组的方法，意味着不能使用该元组的剩余属性值，而这些剩余属性值很可能是分析问题所必须的。除非元组有多个属性残缺，否则该方法不是很有效。当某个属性有很多元组缺失时，它的性能特别差。

2）人工填写残缺值

• 使用全局变量填写缺失值

• 使用属性的均值填充缺失值

• 使用与存在残缺属性的元组属同一类的所有样本的属性均值填写残缺值

• 推测最可能的值并填充：可以使用回归分析等方法推测该缺失信的大小

处理噪声数据的方法：

1）分箱

• 等深分箱法：每箱具有相同的记录数，每个箱子的记录数称为箱子的深度

• 等宽分箱法：在整个数据值的区间上平均分割，使得每个箱子的区间相等，这个区间被称为箱子的宽度。

• 用户自定义分箱法：根据用户自定义的规则进行分箱处理。

2）平滑处理（在分箱之后，要对每个箱子中的数据进行平滑处理）

• 按平均值：对同一箱子中的数据求平均值，用均值代替箱子中的所有数据

• 按中值：取箱子中所有数据的中值，用中值代替箱子中的所有数据

• 按边界值：对箱子中的每一个数据，使用离边界值较小的边界值代替

处理冗余数据的方法

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯