数据也许是当今企业可以拥有的最有价值的一项资产。数据定义了大大小小的企业可以收集到的关于他们的客户和他们所处市场的市场情报。换句话说,它可以成就或破坏一个公司。
数据往往会随着时间的推移而发生变化,这一事实不应该令人惊讶。人们的年龄地址会改变,电话号码也会更新。随着所有这些情况的发生,如果你不能够正确地清理数据,你的数据将变得过时和无用。虽然有效清理的数据对你的业务有巨大的价值,但不干净的数据会带来许多影响和麻烦。
数据质量差带来的挑战
稀少的高质量数据不仅会损害一个组织的发展,也会预示着许多错误的数据洞察,导致决策失误。数据科学家认识到数据清理的重要性,这就是他们几乎80%的时间都花在清理和收集新数据上的原因。以下是一些过时和劣质数据带来不利影响的例子。
从你的数据分析中获得的洞察将只与输入机器的数据一样好,无论这些数据是什么。如果数据质量不好,不符合用户的实际情况,那么你的分析和洞察就会有缺陷,并可能最终导致错误的决策。例如,如果一个营销公司通过研究获得的数据是有缺陷的,那么该组织就不能以它想要的方式接触他们的用户。如果你的数据分析系统提供了关于目标用户的地理位置和人口统计学的错误数据,你可能会因为针对没有参与你的服务的受众而浪费金钱(而忽略了有参与的受众)。
声誉受损
在这个信息时代,一个组织有必要创造一个坚实的声誉,然后进行培养。使用糟糕的数据和通过数据收集的糟糕的数据洞察会导致广泛的声誉损害。一个已经建立起信任声誉的组织,特别是在银行业,一旦开始出现反响,就会为使用不确定的数据而后悔。想象一下,告诉一个潜在的广告商你的用户数量是一个数字,而事实上,这些用户的电子邮件地址或物理地址有很大一部分已经不再准确。像这样的失误,损害的不仅仅是你的声誉。
增长状况不佳
不准确的数据有可能阻止企业开发特定的产品,进入一个新的市场,或了解客户的需求。这些都是任何其他对数据有正确理解和洞察力的竞争者会抓住的因素,以扩大他们的业务以及受众。如果他们在你有机会赶上之前就已经发现并打入了这个市场,你可能就完全不走运了。
收入减少
你可以想象,数据资源不足和市场萎缩的影响也将是一个财务负担。在美国,不良的数据质量每年给国家带来3.1万亿美元的损失。
你从数据中得到的洞察力只有在收集和投入系统的数据中才是最好的。这就是了解如何正确清理数据对数据科学家、分析师和整个企业来说至关重要的原因。
清洁数据的4个步骤
现在是最重要的部分。你如何清理数据?有几个策略可以实施,以确保你的数据是干净的,适合使用。
1. 彻底的计划
执行一个彻底的数据清理策略是从数据收集阶段开始的。与其从一开始就考虑最终的结果,不如尝试使用更好的数据收集方法,如在线调查和利用在线流量来实现数据的清理和更新。
我们所说的规划是指你的数据应该有一定程度的精确性。除了对输入数据的工具进行规划外,你还必须为你不断扩大的员工队伍做准备。研究你的员工能力,并根据它来计划你的数据收集方法。
人的因素对于处理你的自动化不能处理的事情是必要的,这就是你需要通过你的组织内的数据分析方法产生高质量的结果来培训你的团队的原因。。当涉及到数据清理时,你需要对所有的流程进行相应的规划,以作为系统的一部分。让你的数据分析师成为系统的关键部分,以确保他们彻底清理数据,以便进一步使用。
2. 标准化和自动化
标准化是大多数企业出错或不足的地方。你亟需将系统内记录和跟踪数据的方式标准化。在大多数初创公司和企业中,经理们都知道数据收集方法和工具,但却不知道在众多部门中流通的实时数据。
一旦组织同意了标准化的需要,就必须对收集和管理企业数据的可行方法达成共识。这个过程可能需要几个月的时间,但一旦达成共识,将流程标准化并日复一日地遵循相同的方法,就能确保效率,从而使流程恢复到正常速度。
组织还需要考虑到管理企业内部数据使用的法规。例如,《通用数据保护条例》(GDPR)管理欧洲范围内的数据使用,对于任何在欧洲有合作伙伴和受众的企业来说,遵守该条例是必要的。
3. 增加和整合系统
一个单一的系统不可能负责你企业的日常数据需求。数据清理过程中的每一层都应该被检查,以便增加和整合任何新的系统。如果你目前是用Excel来清理数据,你会发现需要在其中加入另一种综合方法。一旦你在流程中添加了一个新的系统,你必须将其与其他的数据整合,并创建一个整个组织统一的数据栈。然后,你的组织中的人力可以在这些集成的数据清理和分析工具上工作,给你带来最好的结果。
4. 利用不同的工具
除了依靠人力来清理数据并制定最佳策略外,今天的市场为此提供了不同的解决方案和工具。在这方面,微软Excel一直是许多数据科学家的首选,因为它带来了大量清理数据集的公式。如果Excel不能够满足你强大的数据需求,今天还有很多选择。一些新的、自动化的软件工具可以提供可行的数据清理,包括。
- IBM Watson Data Studio
- Talend
- Winpure
- Data Ladder
- Conclusion
结论
所有这些工具都简化了数据清理的过程,让用户可以选择清理他们的数据,而不会有太多的麻烦。