构建数仓的过程中,我们会接触到“星型模型”、“雪花模型”、“星座模型”的概念,对于在这个领域没有相关知识积累的人,可能会感觉到很困惑,今天就对这三个名词进行概念讲解,并简单说一下如何选择,期望大家看完能够有所帮助。1. 星型模型、雪花模型、星座模型 基础概念星型模型星型模型是所有维度表都是连接在一个事实表上面,雪花模型是将维度表拆分地更加详细,是多层次的。在星型模型的维度表里面
架构模式的选择数据仓库的架构主要有星型和雪花型两种方式,下面从多个角度来比较一下这两种模式的利弊。从查询性能角度来看,在OLTP-DW环节,由于雪花型要做多个表联接,性能会低于星型架构;但从DW-OLAP环节,由于雪花型架构更有利于度量值的聚合,因此性能要高于星型架构。从模型复杂度来看,星型架构更简单。从层次概念来看,雪花型架构更加贴近OLTP系统的结构,比较符合业务逻辑,层次比较清晰。从存储空间
转载
2023-08-09 17:01:43
125阅读
一、概述在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。二、星型模型星型模型:是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相来连接,不存在渐变维度,所以数据有一定的冗余。比如:销售数据仓库中的星型模型三、雪花模型雪花模型:当有一个或多个维度表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图解就像多个雪花连接在
转载
2024-01-15 10:31:09
116阅读
一、星型模型 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家A 省B的城市C以及国家A省B的城市D两条记录,那么国家A和省B的信息分别存储了两次,即存在冗余。二、雪花模型 当有一个或多个维表没有直接连接到事实表上,而是通过
转载
2024-01-11 12:47:38
118阅读
数据仓库(四)星型模型和雪花模型在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。一、星型模型当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,
转载
2023-08-07 23:34:27
171阅读
1. 星型模式星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:a. 维表只和事实表关联,维表之间没有关联;b. 每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键;c. 以事实表为核心,维表围绕核心呈星形分布; 2. 雪花模式
转载
2023-07-26 22:30:38
287阅读
# 数据仓库 ADS 星型结构简介
数据仓库是一个用于存储、整合和分析大量数据的系统。在数据仓库中,数据以不同的结构存储,而其中一种常见的结构就是 ADS 星型结构。在本篇文章中,我们将详细介绍 ADS 星型结构的特点、使用场景和实现方法,并附带代码示例来帮助读者更好地理解。
## ADS 星型结构简介
ADS 星型结构是一种基于主题的数据仓库模型,它以一个中心表为核心,周围围绕着多个维度表
原创
2024-01-09 23:02:34
92阅读
上一篇开了个头,从Kimball数据仓库生命周期方法角度,列出了数据仓库搭建的核心步骤,从这一篇开始将讲述技术路径:技术架构设计和产品选择和安装。首先先以某公司的数据仓库的总体架构图的视角,了解整个数据仓库搭建起来后结构大体的样子。 最底层是数据源,一般是在线的数据库或者是文件系统。对于在线数据库,一般是操作型数据库,比如mysql,oracle等,一般是存在主库和从库,从
转载
2023-07-24 22:24:22
50阅读
1. 数据仓库的概述1.1 数据仓库的基本内容数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成和数据变换,可以看作数据挖掘的一个重要预处理步骤。此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。数据仓库的基本内容包括:什么是数据仓库操作数据库与数据仓库的区别分离的数据仓库数据仓库模型数据提取变换和转入元数据库2.
转载
2023-08-07 23:25:45
130阅读
1.1 星型模型和雪花模型1.1.1 星型模型星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余。1.1.2 雪花模型当有一个或多个维表没有直
转载
2024-02-03 14:35:06
55阅读
IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft、和SAS等有实力的公司相继(通过收购或研发的途径)推出了自己的数据仓库解决方案,BO和Brio等专业软件公司也在前端在线分析处理工具市场上占有一席之地。下面针对这些数据仓库解决方案的性能和特点做分析和比较。 IBM?IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方
转载
2023-08-10 10:36:00
233阅读
概要:数据仓库是一个过程而不是一个项目;是一个环境而不是一件产品。 数据仓库将多个数据源的数据按照一定主题集成起来,经过抽取、清洗、转换。整合后的数据不允许随便修改,定期更新,这个过程叫做ETL:抽取(extract)、转换(transform)、加载(load)。数据仓库大致流程 ODS层:外部数据源ETL到数仓里最原始的数据 DWD层:对ODS层中的表按一定主题进行划分和加工,内容还是明细数据
转载
2023-09-21 09:18:16
108阅读
书中本章主要介绍的是ETL的人员组织架构,而非技术内容,各企业和团队由于自身原因并不能做到书中这样的组织架构,但是相关的职责要明确。当数据仓库团队建立的时候,通常需要3个专家,下列角色为数仓项目初始阶段所需要的角色,其中次要角色用括号表示:数据模型师(项目经理):必须受过维度数据模型建模的专门训练,学习过维度模型的理论ETL架构师/程序员(DW架构师):ETL程序员以及ETL架构师通常是SQL和数
转载
2024-01-15 17:58:45
59阅读
1、数仓建模的目标访问性能: 能够快速查询所需的数据, 减少数据I/O; 数据成本: 减少不必要的数据冗余, 实现计算结果数据复用, 降低大数据系统中的存储成本和计算成本; 使用效率: 改善用户应用体验, 提高使用数据的效率; 数据质量: 改善数据统计口径的不一致性, 减少数据计算错误的可能性, 提供高质量的、 一致的数据访问平台。2、数据仓库建模理论1、关系模式范式关系型数据库设计时, 遵照一定
转载
2023-11-29 10:45:07
3阅读
0x00 前言翻出来之前零零散散写的数据仓库的内容,重新修正整理成一个系列,此为第一篇《数据模型》。数据仓库包含的内容很多,比如系统架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组件为中心的数据架构体系调度系统、元数据系统、ETL系统这类辅助系统各种数据建模方法,如维度建模我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的
转载
2024-01-02 22:00:13
50阅读
点赞
前些日子在阿里数据仓库平台官网上看了一文章标题为:"ETL模型设计"的贴子,文章对数据仓库的星型模型及基于星型模型的雪花模型扩展描述的比较详细.个人只是感觉标题有些不妥,故文章标题改为:"数据仓库模型设计"。 传统的关系数据库一般采用二维数表的形式来表示数据,一个维是行,另一个
转载
2024-03-12 22:21:33
44阅读
在实际工作中多维分析的商业智能解决方案,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。一、星型模型星型模型:是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属
转载
2023-12-23 22:40:51
327阅读
1.前言 小编最近接到一个任务是大数据方向的,业务是将mysql的数据同步到阿里云的MaxCompute(ODPS)数据仓库中。那么过程中会涉及到哪些知识呢?小编记录下了学习过程,欢迎大家指教。1.1概念扫盲ETL(Extract-Transform-Load) 数据仓库技术,用来描述将数据从来源端经过抽
转载
2023-11-16 13:33:19
67阅读
一、 什么是数据仓库?数据仓库(Data Warehouse)简称 DW 或 DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计上的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集, 从逻辑上讲数据仓库和数据库没有什么区别的。二、 数据仓库的特点1. 面向主题主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的
转载
2023-08-26 13:03:46
105阅读
1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。分别是:数据仓库技术、Hadoop。2、数据
转载
2023-08-20 19:05:55
120阅读