为什么要分层?分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:数据结构清晰,每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。方便数据血缘追踪,简单来说,我们最终给业务呈现的是一个能直接使用业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。减少重复开发,规范数据分层,开发
文章目录数据的分层一、层级划分一、数据运营层:ODS(Operational Data Store)二、数据仓库层:DW(Data Warehouse)三、数据应用层:APP(Application)四、数据的存储 数据的分层一、层级划分ODS:存放原始数据 DW:存放数仓中间层数据 APP:面向业务定制的应用数据一、数据运营层:ODS(Operational Data Store)面向主题
  一、数仓分层1、ODS层:原始数据层ODS(O=original D=data S=store)1)设计要点存储来自多个业务系统、前端埋点、爬虫获取的一系列数据源的数据。我们要做三件事:【1】保持数据原貌不做任何修改,保留历史数据,起到数据备份的作用。【2】使用lzo压缩。100G的数据压缩之后大概为20G。【3】创建分区表,防止后续的全表扫描,一般按天存储。2)ODS层数据组成【1
1.数仓分层数仓分层的目的: 1)功能划分更明确 2)维护方便 宽泛的数仓分层一共有三层: ODS层:源数据层 作用:对接源数据,将数据源中的数据加载到HDFS中,形成一张张表,和原数据库中保持同样的颗粒度 主要用于存放事实表和少量的维度表。在数据导入到ODS层的过程中,可能会对数据进行清洗(但并不一定会做这个操作) 原因:1、如果数据源来源于数据库,这个时候数据本身就是结构化数
数据分层的目的是更好的管理数据,对数据能有一个更加清晰的掌控。数据分层使的数据具有清晰的数据结构,便于进行数据血缘追踪,能够把复杂问题简单化,减少重复开发,屏蔽原始数据的异常和业务的影响。每个企业或组织由于各自业务、规范、目标不尽相同,分层的策略可能会有一些区分,通用的数据分层结构如下图所示。DIM(维表层) 所有维度表的集合 DM(数据集市层) 面向数据应用,提供决策支撑 DWS(数据服务层)
数据仓库的四个层次复制层(SSA,system-of-records-staging-area):SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。原子层(SOR,system-of-record):SOR 是基
转载 2023-08-06 14:24:54
116阅读
分类: 数据仓库数据挖掘 Technorati 标签: 数据仓库,模型设计 数据仓库的模型设计A. 数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段:1,概念模型对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。一般划分为8个主题域:客户、服务、服务使用、账务、结算、资源、客服、营销为什么要划分主题域?划分主题域,是
本文主要围绕架构、分层、建模三个方面,进一步加深对数仓的了解。1 数据仓库的架构从整体上来看,数据仓库体系架构可分为:数据采集层、数据计算层、数据服务层和数据应用层,如下图。 数据仓库架构 1. 数据采集层数据采集层的任务就是把数据从各种数据源中采集和存储到数据库上,期间有可能会做一些 ETL(即抽取、转换、装载)操作。其中,日志所占份额最大,存储在备份服务器上的
# 数据仓库层级架构实现指南 作为一名刚入行的开发者,你可能对数据仓库层级架构感到困惑。本文将为你提供一个详细的指南,帮助你理解并实现数据仓库层级架构。 ## 数据仓库层级架构概述 数据仓库层级架构通常包括以下几个层次: 1. **源数据层(Source Layer)**:存储原始数据,如数据库、日志文件等。 2. **数据抽取层(ETL Layer)**:进行数据抽取、清洗、转换和
原创 1月前
17阅读
       逻辑建模能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图。 数据仓库逻辑建模的内容主要有: 1.分析主题域   在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐步完成的。所以,我们
1.主题的概念主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域,因此这个数据仓库应用的主题就是“销售分析”。面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企
笔者多年身处一线互联网独角兽企业,主导过数据仓库从0到1的建设,同时作为数据中台核心成员,在巨头合并,大数据融合及迁移过程中起到至关重要的作用。对数据中台及数据中泰产品有一定研究,抱着分享与自我成长的心态着手整理发表文章。内容核心会分为两大板块:数据仓库实战与数据产品实战。接下来的文章中逐步介绍以下内容:数据仓库实战(一):数仓分层分域规范 数据仓库实战(二):数仓表命名规范 数据仓库实战(三)
数据仓库分层的原因1通过数据预处理提高效率,因为预处理,所以会存在冗余数据2如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大3通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了 标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集市层),app(应用层)ods:历史存储层,它和源系统数据是同构的,而且这一层数据粒度是最细的,
转载 2017-12-21 16:01:00
107阅读
 数据仓库的模型设计A. 数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段:1,概念模型对业务的范围和使用,从高度上进行抽象概括,也就是划分主题域。一般划分为8个主题域:客户、服务、服务使用、账务、结算、资源、客服、营销为什么要划分主题域?划分主题域,是根据业务的应用和需要来划分的,是用来达到数据与业务紧耦合的目的。2,逻辑模型对概念模型中的主题进
以下为数仓建设知识积累:一、数据仓库建设流程数据驱动+应用驱动模式相结合,保证数据模型具有良好的稳定性与可扩展性:  三、模型设计方法1、设计规范(1)需求规范规范化需求提出途径、留档存底、避免重复提出(2)设计过程规范化需求分析过程,设计过程,避免遗漏事项造成不利影响(3)模型命名统一模型命名,风格统一,便于管理、维护及使用(4)字段命名统一字段命名,实体属性规范化,整洁干练
构建数据中台的初衷是什么:缺少可以复用的数据大家不得不使用原始数据进行清洗、加工和计算指标大量重复代码的开发对资源的消耗问题的根源就在于数据模型的无法复用,以及数据开发都是烟囱式的。所以要解决这个问题,就要搞清楚健壮的数据模型该如何设计。 数据引入层(ODS,Operational Data Store,又称数据基础层):将原始数据几乎无处理地存放在数据仓库系统中,结构上与源系统基本保持
本期将从结构层面了解数据仓库分层的几个名词和简单理解。 文章目录1 理想的数据分层总体结构2 DB层:关系型数据库和非关系型数据库2.1 关系型数据库RDB2.2 非关系型数据库NoSQL3 ODS层:操作数据存储层3.1 ODS产生背景3.2 ODS在企业数据架构中担任的角色3.3 ODS层的特征3.4 ODS层的功能4 DW层:数据仓库 1 理想的数据分层总体结构如图可看出理想的数据分层分为四
转载 2023-08-09 22:40:19
6494阅读
数据仓库作为全行或全公司的数据中心和总线,汇集了全行各系统以及外部数据,通过良好的系统架构可以保证系统稳定性和处理高效性,那如何保障系统数据的完备性、规范性和统一性呢?这里就需要有良好的数据分区和数据模型,那数据分区在第三部分数据架构中已经介绍,本节将介绍如何进行数据模型的设计。1、各数据分区的模型设计思路:       数据架构部分中提
数据仓库基础1. *数仓中是如何划分主题的?主题(Subject)是在较高层次上将企业信息系统中的数据进行综合,归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域,因此这个数据仓库应用的主题就是“销售分析”。 主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。
什么是指标?指标,是用于衡量事物发展程度的单位或方法,也常被称作度量,通常情况下也是报表统计的字段,例如:人口数、营业收入、用户数、利润率、成功率、失败率、覆盖率等。//1数仓指标的构成❖ 数据数据域是统一数仓层的顶层划分,是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合,面向业务分析,一个数据域对应一个宏观分析领域,比如采购域、供应链域、HR域等。数据域是抽象、提炼出来
  • 1
  • 2
  • 3
  • 4
  • 5