目录

一、DataWorks概况

1.1  定义

1.2  功能

1.3  与MaxCompute的关系

二、基于DataWorks与MaxCompute构建云数仓

三、是否适用于本公司


一、DataWorks概况

1.1  定义

DataWorks 是基于MaxCompute计算引擎的一站式开发工场,帮助企业快速完成数据集成、开发、治理、质量、安全等全套数据研发工作。

1.2  功能

1.数据集成

能够支持多种异构数据源之间数据高速稳定的数据移动及数据同步。

2.可视化数据开发

帮助用户获得更加清晰的开发逻辑,SQL智能编辑器能够带来更人性化的开发体验,可视化开发界面,简单易上手。

3.强大调度功能

支持根据时间、依赖关系,进行任务触发的机制;

支持每日千万级别的任务,根据DAG关系准确、准时地运行;

支持分钟、小时、天、周和月多种调度周期配置。

4. 数据服务

帮助用户实现数据API快速生成和注册服务。

5. 可视化运维

提供上下游关系梳理、运行日志、补数据等完善的任务运维。

6. 数据资产管理

包括元数据管理、数据血缘、数据资产大图等。

7. 数据质量

数据质量探查、监控、校验和评分体系。

8. 数据安全

数据权限管理,数据的分级达标、脱敏、以及数据的审计。

 

1.3  与MaxCompute的关系

DataWorks就是基于MaxCompute的PaaS平台,可以简单理解为DataWorks是一个web形式的开发管理工具,而MaxCompute作为存储计算引擎,扮演了IaaS层支撑的角色。我们可以通过DataWorks来用MaxCompute。

MaxCompute 和DataWorks一起向用户提供完善的ETL和数仓管理能力,以及SQL、MR、Graph等多种经典的分布式计算模型,能够更快速地解决用户海量数据计算问题,有效降低企业成本,保障数据安全。

dataworks 部署架构 dataworks api_DataWorks

Maxcompute中的盘古就相当于Hadoop中的HDFS;

Maxcompute中伏羲就相当于Hadoop中的Yarn;

Maxcompute中MaxCompute Engine 就相当于Hadoop中的MapReduce。

 

二、基于DataWorks与MaxCompute构建云数仓

dataworks 部署架构 dataworks api_dataworks 部署架构_02

数据采集:DataX、DataHub、RDS

数据存储与计算:MaxCompute、DataWorks

数据可视化: QuickBI