一、数据清洗是什么
数据清洗,顾名思义就是将要用到的数据中重复、多余部分的数据进行筛选并清除;把缺失部分补充完整,并将不正确的数据纠正或者删除。最后整理成可以进一步加工、使用的数据。
二、数据清洗想要洗掉什么
从上面数据清洗的概念就可以大概知道数据清洗是在清洗什么了,洗掉的就是数据库中的“脏”数据。“脏数据”,即数据库中残缺、错误、重复的数据。数据清洗,旨在提高数据的质量、缩小数据统计过程中的误差值。
三、数据清洗的基本流程
1、对缺失值进行清洗
数据清洗第一步,对缺失值进行清洗。缺失值是非常常见的数据问题,它的处理方法也很多。下面分享一种很常用的方法,首先是明确缺失值的范围:对每个字段进行计算其缺失值比例,并按照缺失比例和字段重要性,分别制定策略。
2、去除不需要的字段
这个步骤非常简单,直接删掉即可。这里有一个点注意,就是记得先对数据进行备份,或者先进行小规模的数据实验,确定无误后在应用到大量的数据上。这样做是为了避免“一误删成千古恨”。
3、填充缺失内容
填充缺失数据有3种方法,分别是以业务知识/经验推测进行填充、以同一个指标计算的结果进行填充、以不同的指标计算的结果进行填充。
4、重新取数
重新取数是针对那些指标重要但缺失率又较高的数据,这需要向取数人员或是业务人员进行资讯,或者从其他渠道取到相关数据。
5、关联性验证
如果数据的来源较多,就有必要进行关联性验证。
数据清洗可以借助专业的BI工具来进行,思迈特软件Smartbi就很值得推荐。思迈特软件Smartbi采用的是分布式的计算架构,单节点支持多线程,处理海量数据没有压力,能有效提高数据处理的性能。强大的数据处理功能不仅支持异构数据,还内置排序、去重、映射、行列合并、行列转换聚合、去空值等等数据预处理功能。