背景:2018年5月份,刚来公司的时候要求写一份大型的数据报告,大概200多页。那时候公司的BI数据仓库还没搭建完善,而且数据ETL仍然使用的是KETTLE工具,只能支撑T+1的更新。更郁闷的是写个算法,结果跑了8个小时
根本无法支撑整个每天产生的GB级别的数据计算量。还有更可怕的是,公司产品分为好几个版本,且放在不同的生产库内,早期的开发很多都离职了且经常是标注不明确,导致大量的脏数据。(还好后期来了几个很优秀百度的开发经理,进行大重构)
由于就职的公司投资方是阿里,所以目前使用的是阿里云的上的大数据工具。实际证明也是非常给力的。之后,去年11月份后和底下的几个助手基本就是996,目的就是在年前把BI的数据仓库搭建完成,并且搭建一套新的数据报表系统,同时更重要的是为数据产品做好支撑。(最终年底之前任务基本完成。同时BI部门8个人,有3个人被评为年度优秀员工。公司整体优秀员工占比是10%,所以感觉非常爽。)
1.基础介绍:
DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
DataWorks基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力。
通过DataWorks,可对数据进行传输、转换、集成的操作,从不同的数据存储引入数据,对数据进行转化和开发,最后将数据输送到其他数据系统。
上图是官方给出的一般的比较理想的宏观数据搭建结构。但是你懂的,实际工作时,比这个复杂很多,所以为什么也是产品需要不断迭代的原因。
2.DATAWORKS的使用地图。
无论什么样的大数据架构,肯定跑不掉是 数据集成,数据开发,数据运维,权限,API接口,数据质量和数据安全。
数据集成:
dataworks2.0 数据集成的步骤和操作/MYSQL 数据离线集成到dataworks
数据开发:
运维中心结构:
权限结构:
数据API服务:
能够自动生产API,太给力了。之前的一个数据产品,需要提供30多个API接口,一个ETL工程师或者后端开发人员需要10天才能完成,现在,最多两天搞定。
数据质量:
数据安全: