DataWorks的技术架构 dataworks blink

转载

IT剑客风云 2024-07-29 17:17:42

文章标签 DataWorks的技术架构数据开发 DATAWORKS 云计算数据 文章分类 架构后端开发

背景：2018年5月份，刚来公司的时候要求写一份大型的数据报告，大概200多页。那时候公司的BI数据仓库还没搭建完善，而且数据ETL仍然使用的是KETTLE工具，只能支撑T+1的更新。更郁闷的是写个算法，结果跑了8个小时

根本无法支撑整个每天产生的GB级别的数据计算量。还有更可怕的是，公司产品分为好几个版本，且放在不同的生产库内，早期的开发很多都离职了且经常是标注不明确，导致大量的脏数据。（还好后期来了几个很优秀百度的开发经理，进行大重构）

由于就职的公司投资方是阿里，所以目前使用的是阿里云的上的大数据工具。实际证明也是非常给力的。之后，去年11月份后和底下的几个助手基本就是996，目的就是在年前把BI的数据仓库搭建完成，并且搭建一套新的数据报表系统，同时更重要的是为数据产品做好支撑。（最终年底之前任务基本完成。同时BI部门8个人，有3个人被评为年度优秀员工。公司整体优秀员工占比是10%，所以感觉非常爽。）

1.基础介绍：

DataWorks（数据工场，原大数据开发套件）是阿里云数加重要的PaaS平台产品，提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘和探索。

DataWorks基于MaxCompute作为核心的计算、存储引擎，提供了海量数据的离线加工分析、数据挖掘的能力。

通过DataWorks，可对数据进行传输、转换、集成的操作，从不同的数据存储引入数据，对数据进行转化和开发，最后将数据输送到其他数据系统。

DataWorks的技术架构 dataworks blink_DataWorks的技术架构