一、数据清洗
作用:去除冗余数据(重复出现的数据、多余的数据)
为什么要进行数据清洗?
因为世界的数据是“脏”的:
- 残缺数据:缺少属性值,缺少某些属性
- 噪声数据:可能出现的相对于真实值的偏差或错误,主要包括:错误数据、假数据、异常数据。
- 冗余数据:既包括重复的数据,也包括对分析处理的问题无关的数据。
处理残缺数据的方法分两种:
1)当元组的某个属性残缺时,忽略整个元组
弊端:采用忽略元组的方法,意味着不能使用该元组的剩余属性值,而这些剩余属性值很可能是分析问题所必须的。除非元组有多个属性残缺,否则该方法不是很有效。当某个属性有很多元组缺失时,它的性能特别差。
2)人工填写残缺值
• 使用全局变量填写缺失值
• 使用属性的均值填充缺失值
• 使用与存在残缺属性的元组属同一类的所有样本的属性均值填写残缺值
• 推测最可能的值并填充:可以使用回归分析等方法推测该缺失信的大小
处理噪声数据的方法:
1)分箱
• 等深分箱法:每箱具有相同的记录数,每个箱子的记录数称为箱子的深度
• 等宽分箱法:在整个数据值的区间上平均分割,使得每个箱子的区间相等,这个区间被称为箱子的宽度。
• 用户自定义分箱法:根据用户自定义的规则进行分箱处理。
2)平滑处理(在分箱之后,要对每个箱子中的数据进行平滑处理)
• 按平均值:对同一箱子中的数据求平均值,用均值代替箱子中的所有数据
• 按中值:取箱子中所有数据的中值,用中值代替箱子中的所有数据
• 按边界值:对箱子中的每一个数据,使用离边界值较小的边界值代替
处理冗余数据的方法