背景:2018年5月份,刚来公司的时候要求写一份大型的数据报告,大概200多页。那时候公司的BI数据仓库还没搭建完善,而且数据ETL仍然使用的是KETTLE工具,只能支撑T+1的更新。更郁闷的是写个算法,结果跑了8个小时

根本无法支撑整个每天产生的GB级别的数据计算量。还有更可怕的是,公司产品分为好几个版本,且放在不同的生产库内,早期的开发很多都离职了且经常是标注不明确,导致大量的脏数据。(还好后期来了几个很优秀百度的开发经理,进行大重构)

由于就职的公司投资方是阿里,所以目前使用的是阿里云的上的大数据工具。实际证明也是非常给力的。之后,去年11月份后和底下的几个助手基本就是996,目的就是在年前把BI的数据仓库搭建完成,并且搭建一套新的数据报表系统,同时更重要的是为数据产品做好支撑。(最终年底之前任务基本完成。同时BI部门8个人,有3个人被评为年度优秀员工。公司整体优秀员工占比是10%,所以感觉非常爽。)

1.基础介绍:

DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力。

通过DataWorks,可对数据进行传输、转换、集成的操作,从不同的数据存储引入数据,对数据进行转化和开发,最后将数据输送到其他数据系统。

DataWorks的技术架构 dataworks blink_DataWorks的技术架构

上图是官方给出的一般的比较理想的宏观数据搭建结构。但是你懂的,实际工作时,比这个复杂很多,所以为什么也是产品需要不断迭代的原因。

2.DATAWORKS的使用地图。

DataWorks的技术架构 dataworks blink_云计算_02

无论什么样的大数据架构,肯定跑不掉是 数据集成,数据开发,数据运维,权限,API接口,数据质量和数据安全。

数据集成:

dataworks2.0 数据集成的步骤和操作/MYSQL 数据离线集成到dataworks

DataWorks的技术架构 dataworks blink_云计算_03

数据开发:

DataWorks的技术架构 dataworks blink_数据开发_04

运维中心结构:

DataWorks的技术架构 dataworks blink_数据_05

权限结构:

DataWorks的技术架构 dataworks blink_DataWorks的技术架构_06

数据API服务:

能够自动生产API,太给力了。之前的一个数据产品,需要提供30多个API接口,一个ETL工程师或者后端开发人员需要10天才能完成,现在,最多两天搞定。

DataWorks的技术架构 dataworks blink_数据_07

数据质量:

DataWorks的技术架构 dataworks blink_DATAWORKS_08

数据安全:

DataWorks的技术架构 dataworks blink_DATAWORKS_09