前文:
我们可以理解为企业生产过程中,一切皆数据。
数据治理是一个很宽泛的议题,整条数据流所有的点和细枝末节都可以说是数据治理的范畴中。从数据源开始,如果业务库的业务流程不规范,数据不准确;采集上报的数据没有按规范走;那么我最终拿到的报表数据即失真没有了价值;所以说数据治理,是自底向上的,会有很多个项目;本文提供一些个人见解及数据部门建设的一些数据模板。
数据治理
1.定义:
评估、指导和监督的数据决策体系;对存量数据治理和增量数据管控的一个过程;
2.目标:
解决数据生产、管理和使用过程中遇到的问题,完善已有的生产管理流程规范,保障数据安全和数据一致性,从而促进数据在组织内无障碍地进行共享。
3.场景案例:
3.1 公司级项目(业财项目):流程/ERP数据
为了解决规范化公司内部财务流程/数据问题,通过打通对比业务库数据的订单和财务部门的账单数据,不断梳理反馈财务流程逻辑和降低两边数据偏差(中间可能出现一些比如汇率、退款、银行提供账单时间、流水单号等等一系列问题,通过多部门联手去沟通理解对齐),最后产出数据看板并定期监控账单偏差。
3.2 部门级项目(Sicas项目):流量/采集数据
目前公司正在围绕Sicas模型开展营销推广,在数据监控上面主要都是通过业务方手工处理加工到Excel表中,极大的消耗业务方的资源耗费。在开发报表的过程中,通过utm参数解析出各层数据,但发现utm_campaign及其他参数格式各异,导致数据看板暂时没有价值。通过先产出该数据看报,然后不断排查数据源问题,让业务方规范该上报格式,从而达到数据治理。
其实可以看出只要是数据规范化都可以归为数据治理的范畴;
3.3 数据部门建设:数据建设规范
部门数据已经发展到一定程度,数据部门在前期已经有了不少在投产中的烟囱式报表了,存在数据资产问题(字典、口径、调度)等问题,需要通过梳理重构数仓,以整站数据口径为基准,对齐其他相关报表口径即可,所以提供了如下报表:
数据总线模板:
数据目录模板:
数据字典模板:
口径模板: