在进行数据统计时,经常会对数据的准确性产生质疑,如果出现较为明显的偏差,就很容易发现数据是不对的。但如果数据只有小幅度的偏差,就很难感受到,造成数据质量的原因有几种,下面分别说明:

1. 网络异常

网络异常是导致数据质量的直接原因之一。举几个栗子,

  • 比如我们在使用APP时,可能因为网络异常,导致用户的操作行为并没有被及时发送到统计服务器端;
  • 或者这些服务是SaaS服务,在一些网络的高峰期,此时有大批量的用户向服务提供商发送行为数据,这样就容易导致网络拥堵,就像春运期间在12306网站抢车票一样,容易导致某些请求丢失,造成数据质量问题;
  • 或者为了应对类似上述的网络异常问题,通常采用重传,间隔上传之类的策略,而这些策略由于标准不统一,也会带来统计的不一致。
  • 或者APP在发送过程中,缓存到本地的数据如果到达上限,可能造成部分数据丢失。

2. 统计口径不同

在实际开发过程中,往往发现业务人员理解的指标口径与数据开发人员理解的指标口径是有偏差的,举一个栗子,如何统计一个活跃用户?是启动APP就算活跃,或者首页加载完成算活跃,亦或是用户要体验其他核心功能才算活跃。看似同一个指标,却造成了实际数值的偏差。

3. 代码质量

  • 由于开发框架和程序代码质量等问题,导致有些模块不能被有效调用,或者重复发送,这样也会导致数据的准确性问题。
  • 亦或者,负责埋点的工程师可能因为人为失误遗漏某些行为事件的采集。

4. 无效请求

比如来自未知势力的,爬虫等操作,都会导致数据异常。