数据仓库实现方式数据仓库实施方法论

转载

mob64ca13f27a4c 2024-01-14 10:12:19

文章标签 数据仓库实现方式数据仓库数据库大数据人工智能 文章分类 数据仓库大数据

摘要：今天分享的主要内容是基于百度的数据仓库方法论（精华版）

分享时间：2021年6月2号

分享内容：石老师

摘要整理：皮卡丘

主要内容：

1. 数据中台简介

2. 数据仓库方法论

3. 数据仓库项目实践

数据仓库实现方式数据仓库实施方法论_人工智能

数据仓库实现方式数据仓库实施方法论_数据仓库_02

一、数据中台简介

1.1、数据中台：

数据中台是一套可持续 "让企业的数据用起来" 的机制，是一种战略选择和组织形式，是依据企业特有的业务模式和组织架构，通过有形的产品和实施方法论支撑，构建一套持续不断把数据变成资产并服务于业务的机制。

1.2、数据中台核心内容：

数据相关的工具、产品和技术：

批量数据采集：sqoop、datax...
离线数据处理：HIVE、Spark
实时数据处理：SparkStreaming、Flink

数据资产：

公司业务本身产生和沉淀的数据
公司运作产生的数据（如财务、行政）
第三方数据：购买、爬虫...

数据管理：

相关数据管理技术和概念，包括：数仓、数据建模、数据质量、数据规范、数据安全、元数据管理等

1.3、数据中台架构：

数据仓库实现方式数据仓库实施方法论_人工智能_03

1.4、数据中台、数据仓库、数据平台之间的区别：

数据中台：

数据中台是企业级的逻辑概念，体现企业D2V(Data to Value) 的能力，为业务提供服务的主要方式是数据API
数据中台距离业务更近，为业务提供速度更快的服务
数据中台是建立在数据仓库和数据平台之上，是加速企业从数据到业务价值的过程的中间层

数据仓库：

数据仓库是一个相对具体的概念，是存储和管理一个或者多个主题数据的集合，为业务提供服务的方式主要是分析报表
数据仓库是为了支持管理决策分析

数据平台：

数据平台是在大数据基础上出现的融合结构化和非结构化数据的数据基础平台，为业务提供服务的方式主要是提供数据集

数据仓库实现方式数据仓库实施方法论_数据仓库_04

数据仓库实现方式数据仓库实施方法论_数据库_05

二、数据仓库方法论

2.1、离线平台：数据化运营（想要什么）

当前和过去一个季度或者一个月的销售趋势如何？
哪些商品热销？
哪些商品销售不好？
哪些客户购买能力比较强？

总结：获取能统计对应指标的数据

数据仓库实现方式数据仓库实施方法论_大数据_06

2.2、离线平台主要特点：

对分析需求最擅长，也是最成熟的，使用最广泛的
开源的解决方案和商业性的解决方案很多
是构建公司和企业数据平台的根本和基础
是目前数据平台的主战场

2.3、数据平台架构：

数据仓库实现方式数据仓库实施方法论_人工智能_07

2.4、HIVE离线数据平台架构：

在大数据出现之前，离线数据平台就是数据仓库，数据部门也就是数据仓库部门
hadoop出现之前，数据仓库的主要技术是商业化数据，比如SQL Server、Oracle、DB2等
随着数据量的爆炸性增长，Hadoop的MapReduce、Spark、Hive等大数据技术被应用到数据仓库中

离线数据平台另一关键技术是数据的建模：维度表、事实表
离线数据内容建设会对精心加工后的数据进行分层：

ODS原始数据层
DWD明细数据层
DWS汇总层
APP数据集市层

2.5、数据技术：OLTP&OLAP（扩展）

OLTP：(online transaction Processing)：

OLTP数据库，如商业性的Oracle、MS SQL Server和MySQL等关系数据库
主要是基本的、日常的事务处理，例如银行交易或者进行增删改查等
OLTP核心需求：单条记录的高效快速处理，索引技术、分库分表

OLAP：analysis

OLAP数据库，专门的分析型数据库，侧重决策支持
OLAP一般只需要处理数据查询请求，数据都是批量导入的，因此通过列存储、列压缩和位图索引等技术可以大大加快响应请求速度

2.6、数据仓库建模技术：

三种搭建数据仓库的方式：

传统OLTP数据库中搭建
商业性数据仓库产品中搭建（MPP架构）
基于Hadoop（HIVE）来搭建

不管哪种方式都会面临以下问题：

怎么组织数据仓库中的数据
怎么组织才能使得数据使用最为方便和便捷
怎么组织才能使得数据仓库具有良好的可扩展性和可维护性

2.7、OneData指导方针：

首先，进行充分的业务调研和需求分析，这是数仓建设的基石
其次，进行数据总体架构设计，主要是根据数据域对数据进行划分；按照维度建模理论，构建总线矩阵，抽象出业务过程和维度
再次，对报表需求抽象整理出相关指标体系，使用OneData工具完成指标规范定义和模型设计
最后，代码研发和运维

数据仓库实现方式数据仓库实施方法论_大数据_08

数据仓库实现方式数据仓库实施方法论_数据仓库实现方式_09

三、数据仓库项目实战

3.1、需求场景：

场景：用车日期2020-09-01到2020-10-01各个城市的应单率，接单率，支付单量
分析：各个城市的用车情况
落地运营：便于给运营或者产品提供数据分析资料

3.2、数据调研

数据仓库实现方式数据仓库实施方法论_人工智能_10

3.2.1 整理现状

收集现有报表：在公司目前的平台中查询现有的报表，比如报表系统，邮件系统以及各个定时任务(crontab)中
确认报表有效性：

定位报表中使用的表数据是否近3个月有更新
可通过报表访问量，如三个月内无访问可认为不再有效
不确定的报表可暂时关闭，3个月后无人反馈则也可认为无效

3.2.2 维度指标拆解：

数据域划分：数据域指面向业务分析，将业务过程或者维度进行抽象的集合，业务过程可以概况为一个个不可拆分的的行为事件。当你面对一个全新的业务领域时，做数据域的划分会帮助你认识全局，规划底层的整体建设。

功能/业务模块	业务动作
订单管理	取消，已完成

维度拆解：构建一致性维度的矩阵，所谓一致性维度即是抽象出来的一些通用的维度。比如商品的库存以及商品的大区，对应的供应商，以及分销渠道，那么大区一类的维度便可以统一归为地区维度，其他的则分别归为供应商/分销渠道/商品基础信息/时间等维度，统一放置在一致性维度表中。一致性维度由需求衍生，商品域需求方关注的一些通用维度如下：

数据域	一致性维度	表名
商品	区域	dim_city_ymd
	商品基础信息	dim_prd_info_ymd
	分销渠道	dim_prd_dis_ymd
	供应商	dim_supp_ymd
	时间	dim_date_ymd

指标拆解：

数据域	衍生指标
	已售库存
	剩余库存
	总库存
	......

3.2.3 数据源确认：

对接研发：通过系统开发确认数据源情况
熟悉系统：

研发确认
产品经理
原有报表系统

表源确认：

生产库	生产表	同步表	同步job	描述
a_mysql	orders	ods_orders	10012	订单详情
a_mysql	products	ods_products	10013	商品详情
a_mysql	aisles	ods_aisles	10014	货架详情
a_mysq	departments	ods_departments	10015	部门详情