第一章 总述

阿里巴巴大数据系统体系架构图

阿里数据体系主要分为数据采集数据计算数据服务数据应用四大层次。

《阿里大数据之路》读书笔记:第一章 总述_大数据开发

一、数据采集层

阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。

数据来源主要有两部分:

  • 业务数据:主要存在数据库中
  • 日志数据:主要来自于日志文件

日志采集技术:

  • Aplus.JS:Web端日志采集技术方案
  • UserTrack:APP 端日志采集技术方案

消息中间件(离线/实时):

  • TimeTunnel (TT ):既包括数据库的增量数据传输,也包括日志数据的传输

数据库同步工具(离线):直连异构数据库(备库)来抽取各种时间窗口的数据。

  • DataX/同步中心:同步中心是基于DataX易用性封装的

二、数据计算层

数据被整合和计算后,才能被挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。

两大体系:

  • 数据存储及计算云平台(离线计算平台(MaxCompute)、实时计算平台(Strea Compute))
  • 数据整合及管理体系:阿里内部称之为“OneData ”,数据整合及管理的方法体系和工具

数据仓库:

  • 离线数仓:传统数仓。主要以天(包含小时、周和月)为单位,如T-1,则每天凌晨处理上一天的数据。
  • 实时数仓:流式数据

数仓的建设遵循业界的分层理念,传统的数据加工链路包括以下几层:

  • 数据层:Operational Data Store,ODS
  • 明细数据层:Data Warehouse Detail,DWD
  • 汇总数据层:Data Warehouse Summary,DWS
  • 应用数据层:Application Data Store,ADS

数仓不同层次之间的加工实现了数据资产向信息资产的转化,整个过程还进行了有效的元数据管理数据质量处理

元数据模型整合及应用:主要包含数据源元数据、数据仓库元数据 、数据链路元数据、工具类元数据、数据质量类元数据等。元数据应用主要面向数据发现、数据管理等 ,如用于存储、计算和成本管理等。

三、数据服务层

目的:数据被整合和计算好之后,可以提供给产品和应用进行消费。

数据服务层以数据仓库整合计算好的数据作为数据源,可以架构在多种数据库之上,如MySQL和HBase等。

数据服务层主要通过统一的数据服务平台对外提供数据服务通过接口服务化方式对外提供数据服务。通过接口堆外提供的数据服务主要包括:

  • 简单数据查询服务
  • 复杂数据查询服务
  • 实时数据推送服务

数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给各应用使用。

四、数据应用层

数据准备好了,可以提供给其他部门使用,比如索、推荐、广告等应用。